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为 什么 要 与 这 本 书 


目前 国内 计算 机 书籍 的 一 个 明显 浆 病 殉 是 内 容 宽泛 而 空洞。 很 多 
书籍 长 篇 大 论 ， 恨 不 得 赛 括 所 有 最 新 的 技术 ， 但 连 一 个 最 基本 的 技术 
细节 也 无 法 解释 清楚 。 有 些 书籍 给 读者 展现 的 是 网 络 上 随处 可 见 的 知 
识 ， 基 本 没有 目 己 的 观点 ， 甚 至 连 一 点 目 己 的 总 结 都 没有 。 反 观 大 师 
们 的 经 典 书籍 ， 整 本 书 只 专注 于 一 个 问题 ， 而 且 对 每 个 技术 细节 的 摘 
壕 都 是 精 膨 细 琢 。 最 关键 的 是 ， 我 们 在 阅读 这 些 经 典 书籍 时 ， 似 乎 是 
在 用 心 与 一 位 编程 高 手 交 流 ， 这 绝对 是 一 种 译 受 。 


我 们 把 问题 缩小 到 计算 机 网 络 编程 领域 。 关 于 计算 机 网 络 编程 的 
相关 书籍 ， 不 得 不 提 的 是 已 故 网 络 教育 巨 奈 W-Richard Stevens 先 生 的 
《TCP/IP 协 议 详解 》 (三 卷 本 ) ， 以 及 《UNIX 网 络 编程 》 (两 卷 
本 ) 。 作 为 一 名 网 络 程序 员 ， 即 使 没有 阅读 过 这 几 本 书 ， 也 应 该 听 说 
过 它们 。 但 这 几 本 书 中 的 内 容 实 在 是 太 庞大 了 ， 没 有 耐心 的 读者 根本 
不 可 能 把 它们 全 部 读 完 。 而 且 对 于 英文 不 太 好 的 朋友 来 说 ， 选 择 阅 读 
其 翻译 版 本 又 有 失 原 汁 原味 。 


基于 以 上 两 点 原因 ， 笔 者 编写 了 这 本 《Linux 高 性 能 服务 右 编 
程 》。 本 书 是 笔者 多 年 来 学 习 网 络 编程 之 总 结 ， 是 在 充分 理解 大 师 的 


作品 并 融入 目 己 的 理解 和 见解 后 写成 的 。 本 书 讨论 的 主题 和 定位 很 明 
确 。 人 簿 单 来 说 束 是 : 如 何 通过 各 种 手段 编写 高 性 能 的 服务 邵 程 序 。 


网 络 技术 是 在 不 断 向 前 发 展 的 ， 比 如 Linux 提 供 的 epol 机 制 就 是 在 
内 核 2.6 版 本 之 后 才 正 式 引 入 的 。 但 是 ， 编 程 思想 却 可 以 享用 一 辈子 。 
我 们 在 不 断 学 习 并 使 用 新 技术 ， 不 断 适 应 新 环境 的 同时 ， 书 中 提 到 的 
网 络 编程 思想 能 让 我 们 看 得 更 远 ， 想 得 更 多 。 笔 者 相信 ， 没 有 谁 会 认 
为 W'Richard Stevens 先 生 的 网 络 编程 书籍 过 时 了 。 


读者 对 象 


阅读 本 书 之 前 ， 读 者 需要 了 解 基 本 的 计算 机 网 络 知识 ， 并 有 具有 一 
定 的 Linux 系 统 编程 和 C++ 编程 基础 ， 人 否则 阅读 起 来 会 有 些 困难 。 本 书 
读者 对 象 主 要 包括 : 


口 Linux 网 络 应 用 程序 开发 人 员 
口 Linux 系 统 程序 开发 人 员 
口 C/C++ 程 序 开发 人 员 


口 对 网 络 编程 技术 感 兴 趣 ， 或 和 希望 参与 网 络 程序 开发 的 人 员 


口 开设 相关 课程 的 大 专 院 校 师 生 


本 书 特色 


本 书 的 特点 : 不 求 内 容 视 泛 ， 但 求 专 而 精 ， 深 入 地 剖析 服务 器 编 
程 的 有 要素 ; 不 求 内 容 精 准 ， 但 求 融 入 笔者 目 己 的 理解 和 观点 ， 可 谓 “ 男 
腿 ” 看 服务 句 编 程 。 


如 何 提高 服务 器 程序 性 能 古本 书 要 着 重 讨论 的 。 第 6、8、9、11、 
12、15、16 等 草 中 都 用 了 相当 的 篇 幅 讨 论 这 一 主题 。 其 论述 方法 十 : 
目 先 ， 探 讨 提高 服务 器 程序 性 能 的 一 般 原 则 ， 比 如 使 用 “ 池 ” 以 牺牲 空 
间 换 取 歼 率 ， 使 用 零 挝 贝 画 数 以 避免 内 核 和 用 户 裤 间 的 切换 等 ;其 
次 ， 介 绍 一 些 高 效 的 编程 模式 及 其 应 用 ， 比 如 使 用 有 限 状态 机 来 分 析 
用 户 数据 ， 使 用 进程 池 或 线程 池 来 处 理 用 户 请 求 ; 最 后 ， 探 讨 如 何 通 
过 调整 系统 参数 来 从 服务 需 程 序 外 部 提高 其 整体 性 能 。 


光 说 不 练 假 把 式 。 如 采 没 有 实例 ， 或 者 只 是 给 出 儿 个 “Hello 
World”， 那 么 本 书 束 真 没有 出 版 的 必要 了 “。 笔 者 要 做 的 是 让 读者 能 真 
正 把 理论 和 实践 完美 地 结合 起 来 。 在 写作 本 书 之 前 ， 笔 者 阅读 了 不 少 
开源 社区 的 优秀 服务 右 软 件 的 源 代码 ， 目 己 也 写 过 相当 多 的 小 型 服务 
右 程 序 。 这 些 软件 中 那些 最 精彩 的 部 分 ， 在 书 中 都 有 充分 的 体现 。 比 
如 第 15 草 给 出 的 两 个 实例 一 一 用 进程 池 实 现 的 简单 CGI 服 务 器 和 用 线 
程 池 实现 的 简单 Web 服 务 器 ， 束 充分 展现 了 如 何 利用 各 种 提高 服务 右 
性 能 的 手段 来 高 效 地 解决 实际 问题 。 


此 外 ， 为 了 帮助 读者 进一步 把 书 中 的 知识 融 汇 到 实际 项 目 中 ， 笔 
者 还 特意 编写 了 一 个 较为 完整 的 负载 均衡 服务 絮 程 序 springsnail。 该 程 
序 能 从 所 有 逻辑 服务 吕 中 选取 人 负 奏 最 小 的 一 台 来 处 理 新 到 的 客户 连 
接 。 在 这 个 程序 中 ， 使 用 了 进程 池 、 有 限 状态 机 、 高 效 数据 结构 来 提 
高 其 性 能 ， 同 时 ， 细 致 地 封 半 了 每 个 画 数 和 模块 ， 使 之 更 符合 实际 工 
程 项 目 。 由 于 篇 幅 的 限制 ， 笔 者 未 将 该 程序 的 源 代 码 列 在 书 中 ， 读 者 
可 从 华章 网 站 中 上 下 载 它 。 


[1] 参见 华章 网 站 www.hzbook.com。 一 ”编辑 注 


如 何 疯 谈 本 书 
本 书 分 为 三 篇 : 


第 一 篇 (第 1~-4 章 ) 介绍 TCP/IP 协 议 族 及 各 种 重要 的 网 络 协 议 。 
只 有 很 好 地 理解 了 底层 TCP/IP 通 信 的 过 程 ， 才 能 编写 出 高 质量 的 网 络 
应 用 程序 。 毕 竟 ， 坚 实 的 基础 设施 造就 稳固 的 上 层 建筑 。 


第 二 篇 (第 5~15 章 ) 细致 地 剖析 了 服务 器 编程 的 各 主要 方面 ， 其 
中 对 每 个 重要 的 概念 、 模 型 以 及 函数 等 都 以 实例 代码 的 形式 加 以 曾 
述 。 这 一 篇 又 可 细 分 为 如 下 四 个 部 分 : 


口 第 一 部 分 (第 5~~7 章 ) 介绍 Linux 操 作 系统 为 网 络 编程 提供 的 众 
多 API。 这 些 API 吏 像 是 基本 的 音符 ， 我 们 通过 组 织 它们 来 谱写 优 天 的 
许 德 * 


口 第 二 部 分 (第 8 章 ) 探讨 高 性 能 服务 器 程序 的 一 般 框 架 。 在 这 一 
部 分 中 ， 我 们 将 服务 右 程 序 解构 为 WO 单元 、 逻 辑 单 元 和 存储 单元 三 个 
部 件 ， 并 重点 介绍 了 IO 单元 、 逻 辑 单元 的 几 种 高 效 实现 模式 。 此 外 ， 
我 们 还 探讨 了 提高 服务 大 性 能 的 其 他 建议 。 


口 第 三 部 分 (第 9 一 12 章 ) 深入 剖析 服务 器 程序 的 MO 单 元 。 我 们 
将 探讨 VO 单 元 需要 处 理 的 MO 事 件 、 信 号 事件 和 定时 事件 ， 并 介绍 一 


款 优 秀 的 开源 VO 框架 库 


Libevent ° 


口 第 四 部 分 (第 13~~15 章 ) 深入 剖析 服务 器 程序 的 逻辑 单元 。 这 
一 部 分 我 们 要 讨论 多 线程 、 多 进程 编程 ， 以 及 高 性 能 逻辑 处 理 模型 
一 一 进程 池 和 线程 池 ， 并 给 出 相应 的 实例 代码 。 


第 三 篇 (第 16~~17 章 ) 探讨 如 何 从 系统 的 角度 优化 和 监测 服务 器 
性 能 。 本 篇 的 内 容 涉及 服务 右 程 序 的 调制 、 调 试 和 测试 ， 以 及 诸多 向 
用 系统 监测 工具 的 使 用 。 


勘误 和 文 持 


由 于 作者 的 水 平 有 限 ， 加 之 编写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 
错误 或 者 不 准确 的 地 方 ， 奶 请 读者 批评 指正 。 书 中 的 全 部 源 文 件 都 可 
以 从 华章 网 站 下 载 。 如 采 您 有 更 多 的 宝贵 意 见 或 建议 ， 也 欢迎 发 送 邮 
件 至 邮箱 pjhq87@gmail.com， 期 得 能 够 得 到 您 的 真 侈 反馈。 
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第 4 草 TCP/IP 通 信和 案例 : 访问 Internet 上 的 Web 服 务 器 
第 1 章 ”TCP/IP 协 议 族 


现在 Internet (因特网 ) 使 用 的 主流 协议 族 是 TCP/IP 协 议 族 ， 它 是 
一 个 分 层 、 多 协议 的 通信 体系 。 本 章 简要 讨论 TCP/PP 协 议 族 各 层 包 含 
的 主要 协议 ， 以 及 它们 之 间 古 如 何 协 作 完 成 网 络 通 信 的 。 


TCP/IP 协 议 族 包含 众多 协议 ， 我 们 无 法 一 一 讨论 。 本 书 将 在 后 续 
章节 详细 讨论 IP 协 议和 TCP 协 议 ， 因 为 它们 对 编写 网 络 应 用 程序 具有 最 
直接 的 影响 。 本 章 则 简单 介绍 其 中 几 个 相关 协议 : ICMP 协 议 、ARP 协 
议和 DNS 协 议 ， 学 习 它们 对 于 理解 网 络 通信 很 有 帮助 。 读 者 如 果 想 要 
系统 地 学 习 网 络 协议 ， 那 和 RFC (Request For Comments， 评 论 请 求 ) 
文档 无 疑 是 首选 资料 。 


1.1 TCP/IP 协 议 族 体系 结构 以 及 主要 协议 


TCP/IP 协 议 族 是 一 个 四 层 协议 系统 ， 自 底 而 上 分 别 是 数据 链 路 
层 、 网 络 层 、 传 输 层 和 应 用 层 。 每 一 层 完成 不 同 的 功能 ， 且 通过 若干 
协议 来 实现 ， 上 层 协议 使 用 下 层 协议 提供 的 服务 ， 如 图 1-1 所 示 。 


应 用 层 用 户 空间 
-一 一 一 一 一 一 一 一 一 一- 一 一 一 -二 一 -一 一- 一 一 -一 一 -一 一 一 一- 一 二 -一 一 一- 一 一 -~ 二 -一 -一 -一 -------1-- socket 
传输 层 
网 络 层 内 核 空间 
数据 链 路 层 
物理 传输 媒介 


图 1-1 TCP/IP 协 议 族 体系 结构 及 主要 协议 


1.1.1 ”数据 链 路 层 


数据 链 路 层 实 现 了 网 卡 接口 的 网 络 驱 动 程序 ， 以 处 理 数 据 在 物理 
媒介 (比如 以 太 网 、 令 牌 环 等 ; 上 的 传输 。 不 同 的 物理 网 络 具 有 不 同 
的 电气 特性 ， 网 络 驱 动 程序 隐藏 了 这 些 细节 ， 为 上 层 协 议 提供 一 个 统 
= 用 接口 3 


数据 链 路 层 两 个 常用 的 协议 是 ARP 协 议 (Address Resolve 
Protocol， 地 址 解析 协议 ) 和 RARP 协 议 (Reverse Address Resolve 
Protocol， 逆 地 址 解析 协议 ) 。 它 们 实现 了 IP 地 址 和 机 器 物理 地 址 ( 通 
常 是 MAC 地 址 ， 以 太 网 、 令 牌 环 和 802.11 无 线 网 络 都 使 用 MAC 地 址 ) 
之 间 的 相互 转换 。 


网 络 层 使 用 了 地 址 寻 址 一 台 机 器 ， 而 数据 通路 层 使 用 物理 地 址 寻 
址 一 台 机 器 ， 因 此 网 络 层 必须 先 将 目标 机 器 的 IP 地 址 转化 成 其 物理 地 
址 ， 才 能 使 用 数据 链 路 层 提供 的 服务 ， 这 就 是 ARP 协 议 的 用 途 。RARP 
协议 仅 用 于 网 络 上 的 某 些 无 盘 工作 站 。 因 为 缺乏 存储 设备 ， 无 盘 工 作 
站 无 法 记 住 自己 的 IP 地 址 ， 但 它们 可 以 利用 网 卡 上 的 物理 地 址 来 向 网 
络 管理 者 (服务 器 或 网 络 管理 软件 查询 自身 的 IP 地 址 。 运 行 RARP 服 
务 的 网 络 管理 者 通常 存 有 该 网 络 上 所 有 机 器 的 物理 地 址 到 Ip 地 址 的 映 
射 。 


由 于 ARP 协 议 很 重要 ， 所 以 我 们 将 在 后 面 章节 专门 讨论 它 。 


1.1.2 ”网 络 层 


网 络 层 实现 数据 包 的 选 路 和 转发 。WAN (Wide Area Network， 广 
域 网 ) 通常 使 用 众多 分 级 的 路 由 器 来 连接 分 散 的 主机 或 LAN (Local 
Area Network， 局 域 网 ) ， 因 此 ， 通 信 的 两 台 主 机 一 般 不 是 直接 相连 
的 ， 而 是 通过 多 个 中 间 节 点 (路 由 器 ) 连接 的 。 网 络 层 的 任务 就 是 选 


择 这 些 中 间 世 点 ， 以 确定 两 台 主 机 之 间 的 通信 路 径 。 同 时 ， 网 络 层 对 
上 层 协议 隐藏 了 网 络 拓扑 连接 的 细 方 ， 使 得 在 传输 层 和 网 络 应 用 程序 
看 来 ， 通 信和 的 双方 是 直接 相连 的 。 


网 络 层 最 核心 的 协议 是 IP 协 议 (Internet Protocol， 因 特 网 协议 ) 。 
IP 协 议 根 据 数 据 包 的 目的 IP 地 址 来 决定 如 何 投 递 它 。 如 果 数 据 包 不 能 直 
接 发 送 给 目标 主机 ， 那 么 IP 协 议 就 为 它 寻 找 一 个 合适 的 下 一 跳 (next 
hop) 路 由 器 ， 并 将 数据 包 交 付 给 该 路 由 器 来 转发 。 多 次 重复 这 一 过 
程 ， 数 据 包 最 终 到 达 目 标 主 机 ， 或 者 由 于 发 送 失 败 而 被 丢弃 。 可 见 ， 
IP 协 议 使 用 逐 跳 (hop by hop) 的 方式 确定 通信 和 路径。 我 们 将 在 第 2 章 
详细 讨论 IP 协 议 。 


网 络 层 另外 一 个 重要 的 协议 是 ICMP 协 议 (Internet Control Message 
Protocol， 因 特 网 控制 报 文 协议 ) 。 它 是 IP 协 议 的 重要 补充 ， 主 要 用 于 
分 测 网 络 连 授 。ICMP 协 议 使 用 的 报 文 格式 如 图 1-2 所 示 。 


0 IS 16 31 


报 文 内 容 ， 取 决 于 报 文 的 类 型 1 
图 1-2 ICMP 报 文 格式 


图 1-2 中 ，8 位 类 型 字段 用 于 区 分 报 文 类 型 。 它 将 ICMP 报 文 分 为 两 
大 类 : 一 类 是 差错 报 文 ， 这 类 报 文 主要 用 来 回应 网 络 错误 ， 比 如 目标 


不 可 到 达 (类 型 值 为 3 ”和 重 定 疝 (类 型 值 为 5) ; 另 一 类 是 查询 报 

文 ， 这 类 报 文 用 来 查询 网 络 信 息 ， 比 如 ping 程 序 就 是 使 用 ICMP 报 文 查 
看 目标 是 否 可 到 达 (类 型 值 为 8) 的 。 有 的 ICMP 报 文 还 使 用 8 位 代码 字 
段 来 进一步 细 分 不 同 的 条 件 。 比 如 重 定 同 报 文 使 用 代码 值 0 表示 对 网 络 
重 定 向， 代码 值 1 表 示 对 主机 重 定 同 。ICMP 报 文 使 用 16 位 校 验 和 字段 
对 整个 报 文 《包括 头 部 和 内 容 部 分 ) 进行 循环 见 余 校 验 (Cyclic 
Redundancy Check，CRC) ， 以 检验 报 文 在 传输 过 程 中 是 否 损 坏 。 不 同 
的 ICMP 报 文 类 型 具有 不 同 的 正文 内 容 。 我 们 将 在 第 2 章 详 细 讨论 主机 
重 定 向 报 文 ， 其 他 ICMP 报 文 格 式 请 参考 ICMP 协 议 的 标准 文档 RFC 
792。 


需要 指出 的 是 ，ICMP 协 议 并 非 严格 意义 上 的 网 络 层 协 议 ， 因 为 它 
使 用 处 于 同一 层 的 人 P 协 议 提 供 的 服务 (一 般 来 说 ， 上 层 协议 使 用 下 层 
协议 提供 的 服务 ) 。 


1.1.3 ”传输 层 


传输 层 为 两 台 主 机 上 的 应 用 程序 提供 端 到 端 (end to end) 的 通 
信 。 与 网 络 层 使 用 的 逐 跳 通信 方式 不 同 ， 传 输 层 只 关心 通信 的 起 始 病 
和 目的 端 ， 而 不 在 乎 数据 包 的 中 转 过 程 。 图 1-3 展 示 了 传输 层 和 网 络 层 
的 这 种 区 别 。 


应 用 程序 
服务 器 


HE | 症 且 几 区 assnseesea 
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传输 层 


网 络 层 协 议 


了 一 一 一 一 一 


网 络 层 协议 
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令 牌 环 协议 。 
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图 1-3 传输 层 和 网 络 层 的 区 别 


图 1-3 中 ， 垂 直 的 实 线 箭头 表示 TCP/P 协 议 族 各 层 之 间 的 实体 通信 
(数据 包 确 实 是 沿 着 这 些 线路 传递 的 ) ， 而 水 平 的 虚线 箭头 表示 逻辑 
通信 线路 。 该 铭 中 还 附 市 换 述 了 不 同 物理 网 络 的 连接 方法 。 可 见 ， 数 
据 链 路 层 (驱动 程序 ) 封装 了 物理 网 络 的 电气 细节; 网 络 层 封 装 了 网 
络 连 接 的 细节 ;传输 层 则 为 应 用 程序 封装 了 一 条 端 到 端的 逻辑 通信 和 链 
路 ， 它 负责 数据 的 收发 、 链 路 的 超时 重 连 


传输 层 协议 主要 有 三 个 : TCP 协 议 、UDP 协 议和 SCTP 协 议 。 


TCP 协 议 (Transmission Control Protocol， 传 输 控制 协议 ) 为 应 用 
层 提 供 可 靠 的 、 面 向 连接 的 和 基于 流 (stream) 的 服务 。TCP 协 议 使 用 


超时 重 传 、 数 据 确认 等 方式 来 确 体 数据 包 被 正确 地 发 送 至 目的 端 ， 因 
此 TCP 服 务 是 可 靠 的 。 使 用 TCP 协 议 通 信和 的 双方 必须 先 建 六 TCP 连接 ， 
并 在 内 核 中 为 该 连接 维持 一 些 必要 的 数据 结构 ， 比 如 连接 的 状态 、 读 
写 缓冲 区 ， 以 及 诸多 定时 器 等 。 当 通信 结束 时 ， 双 方 必须 关闭 连接 以 
释放 这 些 内 核 数据 。TCP 服 务 是 基于 流 的 。 基 于 流 的 数据 没有 边界 (长 
度 ) 限制 ， 它 源源 不 断 地 从 通信 的 一 端 流入 另 一 端 。 发 送 端 可 以 逐个 
字 下 地 癌 数 据 流 中 写 和 数据， 接收 问 也 可 以 逐个 字 世 地 将 它们 读 出 。 


UDP 协议 (User Datagram Protocol， 用 户 数据 报 协议 ) 则 与 TCP 协 
议 完全 相反 ， 它 为 应 用 层 提供 不 可 靠 、 无 连接 和 基于 数据 报 的 服 
务 。“ 不 可 靠 意 味 着 UDP 协议 无 法 保证 数据 从 发 送 端正 确 地 传送 到 目 
的 端 。 如 果 数 据 在 中 途 丢 失 ， 或 者 目的 端 通过 数据 校 验 发 现 数据 错误 
而 将 其 丢弃 ， 则 UDP 协 议 只 是 简单 地 通知 应 用 程序 发 送 失 败 。 因 此 ， 
使 用 UDP 协 议 的 应 用 程序 通常 要 自己 处 理 数据 确认 、 超 时 重 传 等 逻 
辑 。UDP 协 议 是 无 连接 的 ， 即 通信 双方 不 保持 一 个 长 久 的 联系 ， 因 此 
应 用 程序 每 次 发 送 数据 都 要 明确 指定 接收 端的 地 址 〈《 卫 地 址 等 信 
息 ) 。 基 于 数据 报 的 服务 ， 是 相对 基于 流 的 服务 而 言 的 。 每 个 UDP 数 
据 报 都 有 一 个 长 度 ， 接 收 端 必须 以 该 长 度 为 最 小 单位 将 其 所 有 内 容 一 
次 性 读 出 ， 否 则 数据 将 被 截断 。 


SCTP 协 议 (Stream Control Transmission Protocol]， 流 控制 传输 协 
议 ) 是 一 种 相对 较 新 的 传输 层 协议 ， 它 是 为 了 在 因特网 上 传输 电话 信 


号 而 设计 的 。 本 书 不 讨论 SCTP 协 议 ， 感 兴趣 的 读者 可 参考 其 标准 文档 
RFC 2960 。 


我 们 将 在 第 3 章 详 细 讨论 TCP 协 议 ， 并 附带 介绍 UDP 协议 。 


1.1.4 ”应 用 层 


应 用 层 负责 处 理应 用 程序 的 逻辑 。 数 据 链 路 层 、 网 络 层 和 传输 层 
负责 处 理 网 络 通信 细节 ， 这 部 分 必须 既 稳 定 又 高 效 ， 因 此 它们 都 在 内 


核 空 间 中 实现 ， 如 图 1-1 所 示 。 而 应 用 层 则 在 用 户 空 间 实 现 ， 因 为 它 负 


责 处 理 众 多 逻辑 ， 比 如 文件 传输 、 和 名称 查询 和 网 络 管理 等 。 如 采 应 用 
层 也 在 内 核 中 实现 ， 则 会 使 内 核 变 得 非 第 庞大 。 当 然 ， 也 有 少数 服务 
妖 程 序 是 在 内 核 中 实现 的 ， 这 样 代码 就 无 须 在 用 户 空 间 和 内 核 空 间 来 
回 切 换 (主要 是 数据 的 复制 ，， 极 大 地 提高 了 工作 效率 。 不 过 这 种 代 
码 实现 起 来 较 复杂 ， 不 够 灵活 ， 且 不 便于 移植 。 本 书 只 讨论 用 户 空 间 
的 网 络 编程 。 


应 用 层 协 议 很 多 ， 图 1-1 仅 列举 了 其 中 的 几 个 : 


ping 和 是 应 用 程序 ， 而 不 是 协议 ， 前 面 说 过 它 利 用 ICMP 报 文 检 测 网 
络 连接 ， 是 调试 网 络 环境 的 必 备 工具 。 


telnet 协 议 是 一 种 远程 登录 协议 ， 它 使 我 们 能 在 本 地 完成 远程 任 
务 ， 本 书后 续 革 唐 将 会 多 次 使 用 telnet 客 户 端 登录 到 其 他 服务 上 。 


OSPF (Open Shortest Path First， 开 放 最 短路 径 优 先 ) 协议 是 一 种 
动态 路 由 更 新 协议 ， 用 于 路 由 器 之 间 的 通信 ， 以 告知 对 方 各 目的 路 由 
宇 自 。 


百 v 心 ， 


DNS (Domain Name Service， 域 名 服务 ) 协议 提供 机 器 域名 到 IP 
地 址 的 转换 ， 我 们 将 在 后 面 和 涂 要 介绍 DNS 协议 。 


应 用 层 协议 (或 程序 ， 可 能 跳 过 传输 层 直 接 使 用 网 络 层 提供 的 服 
务 ， 比 如 ping 程 序 和 和 OSPF 协议。 应 用 层 协 议 (或 程序 ) 通常 既 可 以 使 
用 TCP 服 务 ， 又 可 以 使 用 UDP 服务 ， 比 如 DNS 协议 。 我 们 可 以 通 
过 /etc/services 文 件 查看 所 有 知名 的 应 用 层 协 议 ， 以 及 它们 都 能 使 用 哪 
些 传输 层 服务 。 


12 封装 


上 层 协议 是 如 何 使 用 下 层 协议 提供 的 服务 的 呢 ? 其 实 这 和 是 通过 封 
装 (encapsulation) 实现 的 。 应 用 程序 数据 在 发 送 到 物理 网 络 上 之 前 ， 
将 沿 铸 协议 栈 从 上 往 下 依次 传递 。 每 层 协 议 部 将 在 上 层 数 据 的 基础 上 
加 上 自己 的 头 部 信息 《有 时 还 包括 尾部 信息 ) ， 以 实现 该 层 的 功能 
个 过 程 吏 称 为 封 攻 ， 如 网 1-4 所 示 。 


应 用 程序 数据 
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LL_ 46~1500 字 节 


图 1-4 封装 


经 过 TCP 封 装 后 的 数据 称 为 TCP 报 文 段 (TCP message segment) ， 
或 者 简称 TCP 段 。 前 文 提 到 ，TCP 协 议 为 通信 双方 维持 一 个 连接 ， 并 且 


在 内 核 中 存储 相关 数据 。 这 部 分 数据 中 的 TCP 头 部 信息 和 TCP 内 核 缓冲 
区 (发 送 缓冲 区 或 接收 缓冲 区 ) 数据 一 起 构成 了 TCP 报 文 段 ， 如 图 1-5 
中 的 虚线 框 所 示 。 


应 用 程序 发 送 
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图 1-5 TCP 报 文 段 封装 过 程 


当 发 送 端 应 用 程序 使 用 send (或 者 write) 范 数 向 一 个 TCP 连 接 写 入 
数据 时 ， 内 核 中 的 TCP 模 块 首先 把 这 些 数据 复制 到 与 该 连接 对 应 的 TCP 
内 核发 送 缓冲 区 中 ， 然 后 TCP 模 块 调用 IP 模 块 捉 供 的 服务 ， 传 递 的 参数 
包括 TCP 头 部 信息 和 TCP 发 送 缓冲 区 中 的 数据 ， 即 TCP 报 文 段 。 天 于 
TCP 报 文 段 头 部 的 细节 ， 我 们 将 在 第 3 章 讨论 。 


经 过 UDP 封装 后 的 数据 称 为 UDP 数据 报 (UDP datagram) 。UDP 
对 应 用 程序 数据 的 封装 与 TCP 类 似 。 不 同 的 是 ，UDP 无 须 为 应 用 层 数 据 
保存 副本 ， 因 为 它 提 供 的 服务 是 不 可 靠 的 。 当 一 个 UDP 数据 报 被 成 功 
发 送 之 后 ，UDP 内 核 缓冲 区 中 的 该 数据 报 就 被 丢弃 了 。 如 果 应 用 程序 
仿 测 到 该 数据 报 未 能 被 接收 端正 确 接 收 ， 并 打算 重 发 这 个 数据 报 ， 则 


应 用 程序 需要 重新 从 用 户 空间 将 该 数据 报 拷贝 到 UDP 内 核发 送 缓冲 区 
Rs 


经 过 IP 封 装 后 的 数据 称 为 IP 数 据 报 (IP datagram) 。 了 数据 报 也 包 
括 头 部 信息 和 数据 部 分 ， 其 中 数据 部 分 束 是 一 个 TCP 报 文 段 、UDP 数 据 
报 或 者 ICMP 报 文 。 我 们 将 在 第 2 章 详细 讨论 了 数据 报 的 头 部 信息 。 


经 过 数据 链 路 层 封 闭 的 数据 称 为 帧 (frame) 。 传 输 媒 介 不 同 ， 帧 
的 类 型 也 不 同 。 比 如 ， 以 太 网 上 传输 的 是 以 太 网 帧 (ethernet frame) ， 
而 令 牌 环 网 络 上 传输 的 则 是 令 牌 环 帧 (token ring frame) 。 以 以 太 网 帧 
为 例 ， 其 封 半 格式 如 图 1-6 所 示 。 


6 字 节 6 字 节 2 字 节 46 一 1500 字 节 4 字 节 


图 1-6 以 太 网 帧 封装 


以 太 网 帧 使 用 6 字 节 的 目的 物理 地 址 和 6 字 节 的 源 物 理 地 址 来 表示 
通信 的 双方 。 关 于 类 型 (type) 字段 ， 我 们 将 在 后 面 讨 论 。4 字 节 CRC 
字段 对 帧 的 其 他 部 分 提供 循环 见 余 校 验 。 


帧 的 最 大 传输 单元 (Max Transmit Unit，MTU) ， 即 帧 最 多 能 携 
带 多 少 上 层 协议 数据 (比如 IP 数 据 报 ) ， 通 常 受到 网 络 类 型 的 限制 。 
图 1-6 所 示 的 以 太 网 帧 的 MTU 是 1500 字 节 。 正 因为 如 此 ， 过 长 的 IP 数 据 
报 可 能 需要 被 分 片 (fragment) 传输 。 


帧 才 是 最 终 在 物理 网 络 上 传送 的 字 和 序列。 至此， 封装 过 程 完 
pe 


1.3 分 用 


当 帧 到 达 目 的 主机 时 ， 将 沿 着 协议 栈 自 底 向 上 依次 传递 。 各 层 协 
议 依次 处 理 帧 中 本 层 负责 的 头 部 数据 ， 以 获取 所 需 的 信息 ， 并 最 终 将 
处 理 后 的 帧 交 给 目标 应 用 程序 。 这 个 过 程 称 为 分 用 
(demultiplexing) 。 分 用 是 依靠 头 部 信息 中 的 类 型 字段 实现 的 。 标 准 
文档 RFC 1700 定 义 了 所 有 标识 上 层 协 议 的 类 型 字段 以 及 每 个 上 层 协 议 
对 应 的 数值 。 图 1-7 显 示 了 以 太 网 帧 的 分 用 过 程 。 


4 应 用 程序 应 用 程序 应 用 程序 应 用 程序 
根据 TCP/UDP 头 部 的 
端口 号 复 用 


根据 IP 头 部 的 
protocol 值 复 用 


根据 以 太 网 帧 头 部 的 
帧 类 型 复 用 


y 


以 太 网 驱动 程序 


进入 的 由 
图 1-7 以 太 网 帧 的 分 用 过 程 


因为 IP 协 议 、ARP 协 议和 RARP 协 议 都 使 用 帧 传输 数据 ， 所 以 帧 的 
头 部 需要 提供 某 个 字段 《具体 情况 取决 于 帧 的 类 型 ) 来 区 分 它们 。 以 


以 太 网 帧 为 例 ， 它 使 用 2 字 节 的 类 型 字段 来 标识 上 层 协议 ( 见 图 1-6) 。 
如 采 主 机 接收 到 的 以 太 网 帧 类 型 字段 的 值 为 0x800， 则 帧 的 数据 部 分 为 
IP 数 据 报 ( 见 图 1-4) ， 以 太 网 驱动 程序 就 将 帧 交付 给 人 P 模 块 ， 若 类 型 
字段 的 值 为 0x806， 则 帧 的 数据 部 分 为 ARP 请 求 或 应 管 报 文 ， 以 太 网 驱 
动 程序 束 将 帧 交付 给 ARP 模 块 ， 吞 类 型 字段 的 值 为 0x835， 则 帧 的 数据 
部 分 为 RARP 请 求 或 应 管 报 文 ， 以 太 网 驱动 程序 号 将 帧 交付 给 RARP 模 
块 。 


同样 ， 因 为 ICMP 协 议 、TCP 协 议和 UDP 协 议 都 使 用 IP 协 议 ， 所 以 
IP 数 据 报 的 头 部 采用 16 位 的 协议 (protocol) 字段 来 区 分 它们 。 


TCP 报 文 段 和 UDP 数据 报 则 通过 其 头 部 中 的 16 位 的 端口 号 (port 
number) 字段 来 区 分 上 层 应 用 程序 。 比 如 DNS 协议 对 应 的 端口 号 是 
53，HTTP 协 议 (Hyper-Text Transfer Protocol， 超 文本 传送 协议 ) 对 应 
的 端口 号 是 80。 所 有 知名 应 用 层 协 议 使 用 的 端口 号 都 可 在 /etc/services 
文件 中 找到 。 


帧 通过 上 壕 分 用 步骤 后 ， 最 终 将 封装 前 的 原始 数据 送 至 目标 服务 
(图 1-7 中 的 ARP 服 务 、RARP 服 务 、ICMP 服 务 或 者 应 用 程序 ) 。 这 
样 ， 在 顶层 目标 服务 看 来 ， 封 装 和 分 用 似乎 没有 发 生 过 。 


1.4 测试 网 络 


为 了 深入 理解 网 络 通信 和 网 络 编程 ， 我 们 准备 了 图 1-8 所 示 的 测试 
网 络 ， 其 中 包括 两 台 主 机 A 和 B， 以 及 一 个 连接 到 因特网 的 路 由 器 。 后 
文 如 没有 特别 声明 ， 所 有 测试 硬件 指 的 都 古 访 网络。 我们 将 使 用 机 器 
名 来 标识 测试 机 器 。 


机 器 名 : ernest-laptop 机 器 名 : Kongming20 
和 IP 地 址 : 192.168.1.108 IP 地 址 : 192.168.1.109 B 
MAC 地 址 : 00:16:d3:5c:b9:e3 MAC 地 址 : 08:00:27:53:10:67 
系统 : Ubuntu 9.10 系统 : Fedora 16 
网 卡 接口 : eth0 网 卡 接口 : p2p1 


以 太 网 
加 IP 地 址 : 192.168.1.1 
路 由 活 MAC 地 址 : 14:e6:e4:93:5b:78 


去 因特网 


图 1-8 测试 网 络 


该 测试 网 络 主要 用 于 分 析 ARP 协 议 、IP 协 议 、ICMP 协 议 、TCP 协 
议和 DNS 协议 。 我 们 通过 抓 取 该 网 络 上 的 以 太 网 帧 ， 查 看 其 中 的 以 太 
网 帧 头 部 、 了 数据 报头 部 、TCP 报 文 段 头 部 信息 ， 以 获取 网 络 通信 的 细 
节 。 这 样 ， 以 理论 结合 实践 ， 我 们 就 清楚 TCP/IP 通 信和 具体 是 如 何 进行 
的 了 。 作 者 编写 的 多 个 客户 端 、 服 务 器 程序 都 是 使 用 该 网 络 来 调试 和 
测试 的 。 


对 于 路 由 器 ， 我 们 仅 列 出 了 其 LAN 网 络 IP 地 址 (192.168.1.1) ， 而 
忽略 了 ISP (Internet Service Provider， 因 特 网 服务 提供 商 ) 给 它 分 配 的 
WAN 网 络 IP 地 址 ， 因 为 全 书 的 讨论 都 不 涉及 它 。 


1.5 ” ARP 协议 工作 原理 


ARP 协 议 能 实现 任意 网 络 层 地 址 到 任意 物理 地 址 的 转换 ， 不 过 本 
书 仅 讨 论 从 IP 地 址 到 以 太 网 地 址 (MAC 地址 ) 的 转换 。 其 工作 原理 
是: 主机 同 目 己 所 在 的 网 络 广 播 一 个 ARP 请 求 ， 该 请 求 包含 目标 机 咒 
的 网 络 地 址 。 此 网 络 上 的 其 他 机 右 都 将 收 到 这 个 请 求 ， 但 只 有 人 被 请 来 
的 目标 机 需 会 回应 一 个 ARP 应 答 ， 其 中 包 侣 目 己 的 物理 地 址 。 


1.5.1 以 太 网 ARP 请 求 / 应 答 报 文 详解 


以 太 网 ARP 请 求 /应 管 报 文 的 格式 如 图 1-9 所 示 。 


类 型 
2 字 节 ”2 字 节 ”1 字 节 ”1 字 节 ”2 字 节 6 字 节 4 字 节 6 字 节 4 字 节 


图 1-9 以 太 网 ARP 请 求 /应 答 报 文 


图 1-9 所 示 以 太 网 ARP 请 求 /应 答 报 文 各 字段 具体 介绍 如 下 。 


口 硬 件 类 型 字段 定义 物理 地 址 的 类 型 ， 它 的 值 为 1 表示 MAC 地 址 。 


口 协 议 类 型 字段 表示 要 映射 的 协议 地 址 类 型 ， 它 的 值 为 0x800， 表 
示 IP 地 址 。 


口 硬件 地 址 长 度 字段 和 协议 地 址 长 度 字 段 ， 顾 名 思 义 ， 其 单位 是 
字 节 。 对 MAC 地 址 来 说 ， 其 长 度 为 6; 对 IP (v4) 地 址 来 说 ， 其 长 度 为 
4 。 


口 操作 字段 指出 4 种 操作 类 型 : ARP 请 求 ( 值 为 1) 、ARP 应 答 ( 值 
为 2) 、RARP 请 求 ( 值 为 3) 和 RARP 应 答 〈 值 为 4) 。 


口 最 后 4 个 字段 指定 通信 双方 的 以 太 网 地 址 和 耻 地 址 。 发 送 闪 填 充 
除 目 的 端 以 太 网 地 址 外 的 其 他 3 个 字段 ， 以 构建 ARP 请 求 并 发 送 之 。 接 
收 问 发 现 该 请 求 的 目的 病 IP 地 址 是 目 己 ， 束 把 目 己 的 以 太 网 地 址 填 进 
去 ， 然 后 交换 两 个 目的 端 地 址 和 两 个 发 送 端 地 址 ， 以 构建 ARP 应 答 并 
返回 之 (当然 ， 如 前 所 述 ， 操 作 字 上段 需 要 设置 为 2) 。 


由 图 1-9 可 知 ，ARP 请 求 /应 答 报 文 的 长 度 为 28 字 节 。 如 果 再 加 上 以 
太 网 帧 头 部 和 尾部 的 18 字 节 〈 见 图 1-6) ， 则 一 个 携带 ARP 请 求 /应 答 报 
文 的 以 太 网 帧 长 度 为 46 字 节 。 不 过 有 的 实现 要 求 以 太 网 帧 数据 部 分 长 
度 至 少 为 46 字 节 〈 见 图 1-4) ， 此 时 ARP 请 求 / 应 答 报 文 将 增加 一 些 填 充 
字 节 ， 以 满足 这 个 要 求 。 在 这 种 情况 下 ， 一 个 携带 ARP 请 求 /应 答 报 文 
的 以 太 网 帧 长 度 为 64 字 节 。 


1.5.2 ”ARP 高 速 缓存 的 查看 和 修改 


通常 ，ARP 维 护 一 个 高 速 缓存 ， 其 中 包含 经 党 访问 (比如 网 关 地 
址 ) 或 最 近 访 问 的 机 品 的 耳 地 址 到 物理 地 址 的 映射 。 这 样 束 避 免 了 重 
复 的 ARP 请 求 ， 提 高 了 发 送 数据 包 的 速度 。 


Linux 下 可 以 使 用 arp 命 令 来 查看 和 修改 ARP 高 速 缓存 。 比 如 ， 
ernest-laptop 在 某 一 时 刻 (注意 ，ARP 高 速 级 存 是 动态 变化 的 ) 的 ARP 
缓存 内 容 如 下 (使 用 arp-a 命 令 ) : 


Kongming20(192.168.1.109)at 08:00:27:53:10:67[ether]on etho 
?(192.168.1.1)at 14:e6:e4:93:5b:78[ether]jon etho 


其 中 ， 第 一 项 描述 的 是 男 一 台 测 试 机 器 Kongming20 (注意 ， 其 IP 
地 址 、MAC 地 址 都 与 出 1-8 摘 述 的 一 致 ) ， 第 二 项 措 述 的 是 路 由 器 。 下 
面 两 条 命令 则 分 别 删 除 和 添加 一 个 ARP 缓 存 项 : 

$sudo arp-d 192.168.1.109# 删 除 Kongming20 对 应 的 ARP 缓 存 项 


$sudo arp-s 192.168.1.109 08:00:;27:53:10:67# 添 加 Kongming20 对 应 的 
ARP 缓 存 项 


1.5.3 ”使 用 tcpdump 观 察 ARP 通 信 过 程 


为 了 清楚 地 了 解 ARP 的 运作 过 程 ， 我 们 从 ernest-laptop 上 执行 telnet 
令 登 录 Kongming20 的 echo 服 务 (已 经 开启 ) ， 并 用 tcpdump 〈 详 见 第 
17 章 ) 抓 取 这 个 过 程 中 两 台 测试 机 器 之 间 交 换 的 以 太 网 帧 。 具 体 的 操 
作 过 程 如 下 : 


全 ~ 


Hp 


到 | 


$sudo arp-d 192.168.1.109# 清 除 ARP 缓 在 中 Kongming20 对 应 的 项 

$sudo tcpdump-i etho-ent'(dst 192.168.1.109 and src 
192.168.1.108)or 

(dst 192.168.1.108 and src 192.168.1.109)'# 如 无 特殊 声明 ， 抓 包 都 在 机 器 
ernest-laptop 上 执行 

$telnet 192.168.1.109 echo# 开 启 男 一 个 终端 执行 Ltelnet 命 令 

Trying 192.168.1.109... 

Connected to 192.168.1.109. 

Escape character is'^]'. 

人 ^] ( 回 车 ) # 输 入 Ctrl+] 并 回 车 

telnet >quit ( 回 车 ) 

Connection closed. 


在 执行 telnet 命 令 之 前 ， 应 先 清除 ARP 缓 存 中 与 Kongming20 对 应 的 
项 ， 否 则 ARP 通 信 不 被 执行 ， 我 们 也 就 无 法 抓 取 到 期 望 的 以 太 网 帧 。 
当 执行 telnet 命 令 并 在 两 台 通 信 主 机 之 间 建 立 TCP 连 接 后 (telnet 输 
出 “Connected to 192.168.1.109”) ， 输 入 Ctrl+] 以 调 出 telnet 程 序 的 命令 提 
示 符 ， 然 后 在 telnet 命 令 提示 符 后 输入 quit， 退 出 telnet 客 户 端 程序 ( 因 
为 ARP 通 信 在 TCP 连 接 建 立 之 前 就 已 经 完成 ， 故 我 们 不 关心 后 续 内 
容 ) 。tcpdump 抓 取 到 的 众多 数据 包 中 ， 只 有 最 靠 前 的 两 个 和 ARP 通 信 
有 关系 ， 现 在 将 它们 列 出 (数据 包 前 面 的 编号 是 笔者 加 入 的 ， 后 
同 ) 

1.00:16:d3:5c:b9:e3>ff:ff:ff:ff:ff:ff,ethertype 
ARP (Ox0806), length 42:Request who-has 192.168.1.109 tell 
192.168.1.108, length 28 

2.08:00:27:53:10:67>>00:16:d3:5c:b9:e3,ethertype 


ARP (Ox0806), length 60:Reply 192.168.1.109 is-at 
08:00:27:53:10:67,1length 46 


由 tcpdump 抓 取 的 数据 包 本 质 上 是 以 太 网 帧 ， 我 们 通过 该 命令 的 众 
多 选项 来 控制 帧 的 过 滤 (比如 用 dst 和 src 指 定 通信 的 目的 端 fP 地 址 和 源 
端 耻 地 址 ) 和 显示 (比如 用 -e 选 项 开启 以 太 网 帧 头 部 信息 的 显示 ) 。 


第 一 个 数据 包 中 ，ARP 通 信 的 谋 闪 的 物理 地 址 是 00:16:d3:5c:b9:e3 
(ernest-laptop) ， 目 的 端的 物理 地 址 是 佳 任 : 任 : 任 企 任 ， 这 是 以 太 网 的 广 
播 地 址 ， 用 以 表示 整个 LAN。 该 LAN 上 的 所 有 机 器 都 会 收 到 并 处 理 这 
样 的 帧 。 数 值 0x806 是 以 太 网 帧 头 部 的 类 型 字段 的 值 ， 它 表示 分 用 的 目 
标 是 ARP 模 块 。 该 以 太 网 帧 的 长 度 为 42 字 市 (实际 上 是 46 字 广 ， 
tcpdump 未 统计 以 太 网 帧 尾部 4 字 节 的 CRC 字 段 ) ， 其 中 数据 部 分 长 度 
为 28 字 节 。“Request” 表 示 这 是 一 个 ARP 请 求 , “who-has 192.168.1.109 


tell 192.168.1.108” 则 表示 是 ernest-laptop 要 查询 Kongming20 的 IP 地 址 。 


第 二 个 数据 包 中 ，ARP 通 信 的 源 端 的 物理 地 址 是 08:00:27:53:10:67 
(Kongming20) ， 目 的 端的 物理 地 址 是 00:16:d3:5c:b9:e3 (ernest- 
laptop) 。“Reply” 表 示 这 是 一 个 ARP 应 答 ,，“192.168.1.109 is-at 
08:00:27:53:10:67” 则 表示 目标 机 器 Kongming20 报 告 其 物理 地 址 。 该 以 
太 网 帧 的 长 度 为 60 字 节 (实际 上 是 64 字 节 ) ， 可 见 它 使 用 了 填充 字 节 
来 满足 最 小 帧 长 度 。 


为 了 便于 理解 ， 我 们 将 上 述 讨论 用 图 1-10 来 详细 说 明 。 


telnet 客 户 程序 echo 服 务 
人 


ernest-laptop Kongming20 
ARP 以 太 网 驱动 程序 | 以 太 网 驱动 程序 ARP | 
以 太 网 帧 2 
1 < 
1 
1 
1 


以 太 网 帧 1 


路 由 器 


以 太 网 驱动 程序 


以 太 网 帧 1 的 内 容 作 作 人 f: 作 从: 作 00:16:d3:5c:b9:e3 
以 太 网 帧 2 的 内 容 00:16:d3:5c:b9:e3 08:00:27:53:10:67 Ox806 ARP 应 答 


图 1-10 ARP 通 信 过 程 


关于 该 图 ， 需 要 说 明 三 点 : 


第 一 ， 我 们 将 两 次 传输 的 以 太 网 帧 按照 图 1-6 所 揪 壕 的 以 太 网 帧 圭 
洲 格 式 绘制 在 图 的 下 半 部 分 。 


第 二 ，ARP 请 求 和 应 答 是 从 以 太 网 驱动 程序 发 出 的 ， 而 并 非 像 图 

中 描述 的 那样 从 ARP 模 块 直接 发 送 到 以 太 了 网 上 ， 所 以 我 们 将 它们 用 虚 

线 表示 ， 这 主要 是 为 了 体现 携带 ARP 数 据 的 以 太 网 帧 和 其 他 以 太 网 帧 
(比如 携带 耻 数 据 报 的 以 太 网 帧 ) 的 区 别 。 


第 三 ， 路 由 器 也 将 接收 到 以 太 网 帧 1， 因 为 该 帧 是 一 个 广播 由。 不 
过 很 显然 ， 路 由 器 并 没有 回应 其 中 的 ARP 请 求 ， 正 如 前 文 讨论 的 那 


样 。 


1.6 DNS 工作 原理 


我 们 通常 使 用 机 器 的 域名 来 访问 这 台 机 器 ， 而 不 直接 使 用 其 IP 地 
址 ， 比 如 访问 因特网 上 的 各 种 网 站 。 那 么 如 何 将 机 器 的 域名 转换 成 IP 
地 址 呢 ? 这 就 需要 使 用 域名 查询 服务 。 域 名 查询 服务 有 很 多 种 实现 方 
式 ， 比 如 NIS (Network Information Service， 网 络 信息 服务 ) 、DNS 和 
本 地 静态 文件 等 。 本 三 主要 讨论 DNS 。 


1.6.1 DNS 查 询 和 应 答 报 文 详解 


DNS 是 一 套 分 布 式 的 域名 服务 系统 。 每 个 DNS 服 务 器 上 都 存放 着 
大 量 的 机 器 名 和 IP 地 址 的 映射 ， 并 且 是 动态 更 新 的 。 众 多 网 络 客户 端 
程序 都 使 用 DNS 协议 来 向 DNS 服务 器 查询 目标 主机 的 卫 地 址 。 DNS 查 
询 和 应 答 报 文 的 格式 如 图 1-11 所 示 。 


ls -6 


16 位 问题 个 数 16 位 应 答 资 源 记录 个 数 


16 位 授权 资源 记录 数目 16 位 额外 的 资源 记录 数目 


查询 问题 (长 度 可 变 ) 


应 答 〈 资 源 记录 数 目 可 变 ， 长 度 可 变 ) 


授权 资源 记录 数目 可 变 ， 长 度 可 变 ) 


额外 信息 《资源 记录 数目 可 变 ， 长 度 可 变 ) 


图 1-11 DNS 查询 和 应 答 报 文 


16 位 标识 生字 段 用 于 标记 一 对 DNS 查询 和 应 答 ， 以 此 区 分 一 个 
DNS 应 答 是 哪个 DNS 查询 的 回应 。 


16 位 标志 字段 用 于 协商 具体 的 通信 方式 和 反馈 通信 状态 。DNS 报 
文 头 部 的 16 位 标志 字段 的 细 市 如 图 1-12 所 示 。 


1 位 1 位 1 位 1 位 


图 1-12 DNS 报 文 头 部 的 标志 字段 


图 1-12 中 各 标志 的 含义 分 别 是 


口 QR， 碍 询 /应 答 标 志 。0 表 示 这 和 是 一 个 得 询 报 文 ，1 表 示 这 二 一 个 
应 答 报 文 。 


口 opcode， 定 义 查 询 和 应 答 的 类 型 。0 表 示 标 准 查 询 ，1 表 示 反 回 查 
询 (由 IP 地 址 获得 主机 域名 ) ，2 表 示 请 求 服 务 器 状态 。 


DAA， 授 权 应 管 标志 ， 仪 由 应 管 报 文 使 用 。1 表 示 域 名 服务 右 古 授 
权 服 务 右 。 


DTC， 截 断 标 志 ， 仅 当 DNS 报 文 使 用 UDP 服务 时 使 用 。 因 为 UDP 
数据 报 有 长 度 限制 ， 所 以 过 长 的 DNS 报 文 将 被 截断 。1 表 示 DNS 报 文 超 
过 512 字 节 ， 并 被 截断 。 


口 RD， 递 归 查 询 标志 。1 表 示 执 行 递 归 查 询 ， 即 如 果 目 标 DNS 服 务 
器 无 法 解析 某 个 主机 名 ， 则 它 将 向 其 他 DNS 服务 器 继续 查询 ， 如 此 递 
归 ， 直 到 获得 结果 并 把 该 结果 返回 给 客户 端 。0 表 示 执 行 迭 代 查 询 ， 即 
如 膝 目 标 DNS 服 务 句 无 法 解析 某 个 主机 名 ， 则 它 将 目 己 知 道 的 其 他 
DNS 服 务 器 的 IP 地 址 返回 给 客户 贺 ， 以 供 客 三 站 参考 。 


口 RA， 允 许 递 归 标 志 。 仅 由 应 答 报 文 使 用 ，1 表 示 DNS 服 务 融 文 持 
递归 查询 。 


Dzero， 这 3 位 未 用 ， 必 须 都 设置 为 0。 


Drcode，4 位 返回 码 ， 表 示 应 答 的 状态 。 常 用 值 有 0 (无 错误 ) 和 3 
(域名 不 存在 ) 。 


接 下 来 的 4 个 字段 则 分 别 指出 DNS 报 文 的 最 后 4 个 字段 的 资源 记录 
数目 。 对 查询 报 文 而 言 ， 它 一 般 包 含 1 个 查询 问题 ， 而 应 答 资源 记录 
数 、 授 权 货 源 记 录 数 和 额外 资源 记录 数 则 为 0。 应 答 报 文 的 应 答 资源 记 
台数 则 至 少 为 1， 而 授权 资源 记录 数 和 额外 闹 源 记录 数 可 为 0 或 非 0。 


查询 癌 题 的 格式 如 图 1-13 所 示 。 


0 15 16 3 


查询 名 可 变 长 ) 


图 1-13 DNS 查询 问题 的 格式 


图 1-13 中 ， 查 询 名 以 一 定 的 格式 封 狠 了 要 查询 的 主机 域名 。16 位 查 
询 类 型 表示 如 何 执 行 查 询 操 作 ， 常 见 的 类 型 有 如 下 几 种 : 


口 类 型 A， 值 是 1， 表 示 获 取 目 标 主 机 的 人 P 地 址 。 


口 类 型 CNAME， 值 是 5， 表 示 获 得 目标 主机 的 别名 。 


口 类 型 PTR， 值 是 12， 表 示 反 向 查询 。 


16 位 查询 类 通常 为 1， 表 示 获 取 因 特 网 地 址 (IP 地址) 。 


应 答 字 段 、 授 权 字 段 和 和 额外 信息 字段 都 使 用 资源 记录 (Resource 
Record，RR) 格式 。 资 源 记 录 格 式 如 图 1-14 所 示 。 


0 13 16 31 


32 位 生存 时 间 


16 位 资源 数据 长 度 


资源 数据 (长 度 可 变 ) 


图 1-14 资源 记录 格式 


图 1-14 中 ，32 位 域名 是 该 记录 中 与 货源 对 应 的 名 字 ， 其 格式 和 查询 
问题 中 的 查询 名 字段 相同 。16 位 类 型 和 16 位 类 字段 的 台 义 也 与 DNS 香 
询问 题 的 对 应 字段 相同 。 


32 位 生存 时 间 表 示 该 查询 记录 结果 可 被 本 地 客户 端 程序 缓存 多 长 
时 间 ， 单 位 是 秒 。 
16 位 资源 数据 长 度 字 段 和 资源 数据 字段 的 内 容 取决 于 类 型 字段 。 
对 类 型 A 而 言 ， 资 源 数据 是 32 位 的 IPv4 地 址 ， 而 资源 数据 长 度 则 为 4 
(以 字 节 为 单位 ) 


至 此 ， 我 们 简要 地 介绍 了 DNS 协议 。 我 们 将 在 后 面 给 出 一 个 DNS 
通信 的 具体 例子 。 DNS 协议 的 更 多 细节 请 参考 其 RFC 文 档 (DNS 协议 
存在 诸多 RFC 文 档 ， 每 个 RFC 文 档 介绍 其 一 个 侧面 ， 比 如 RFC 1035 介 
绍 的 是 域名 的 实现 和 规范 ，RFC 1886 则 描述 DNS 协议 对 IPv6 的 扩展 支 


持 ) 


1.6.2 ”Linux 下 访问 DNS 服务 


我 们 要 访问 DNS 服务 ， 束 必须 先知 道 DNS 服 务 器 的 卫 地 址 。Linux 
使 用 /etc/resolv.conf 文 件 来 存放 DNS 服 务 絮 的 IP 地 址 。 机 器 ernest-laptop 
上 ， 该 文件 的 内 容 如 下 : 
#Generated by Network Manager 


nameserver 219.239.26.42 
nameserver 124.207.160.106 


其 中 的 两 个 耻 地 址 分 别 是 首选 DNS 服务 器 地 址 和 备 选 DNS 服务 器 
地 址 。 文 件 中 的 注释 语句 “Generated by Network Manager” 告 诉 我 们 ， 这 
两 个 DNS 服务 器 地 址 是 由 网 络 管理 程序 写 入 的 。 


Linux 下 一 个 常用 的 访问 DNS 服 务 器 的 客户 端 程序 是 host， 比 如 下 
面 的 命令 是 向 首选 DNS 服务 器 219.239.26.42 查 询 机 器 www.baidu.com 的 
IP 地 址 : 
$host-t A www.baidu.com 
www.baidu.com is an alias for www.a.shifen.com. 


www.a.shifen.com has address 119.75.217.56 
www.a.shifen.com has address 119.75.218.77 


host 命 令 的 输出 告诉 我 们 ， 机 器 名 www.baidu.com 是 
www.a.shifen.com. 的 别名 ， 并 且 该 机 妖 名 对 应 两 个 IP 地 址 。host 命 令 使 
用 DNS 协 议和 DNS 服 务 器 通信， 其 -t 选 项 告诉 DNS 协 议 使 用 哪 种 查询 类 


型 。 我 们 这 里 使 用 的 是 A 类 型 ， 即 通过 机 器 的 域名 获得 其 IP 地 址 (但 实 
际 上 返回 的 资源 记录 中 还 包含 机 器 的 别名 ) 。 关 于 host 命 令 的 详细 使 用 
方法 ， 请 参考 其 man 手 册 。 


1.6.3 ”使 用 tcpdump 观 察 DNS 通 信 过 程 


为 了 看 清楚 DNS 通信 的 过 程 ， 下 面 我 们 将 从 ernest-laptop 上 运行 
host 命 令 以 查询 主机 www.baidu.com 对 应 的 IP 地 址 ， 并 使 用 tcpdump 抓 取 
过 程 中 LAN 上 传输 的 以 太 网 帧 。 有 具体 的 操作 过 程 如 下 : 


$sudo tcpdump-i etho-nt-s 500 port domain 
$host-t A www.baidu,.com 


一 次 执行 tcpdump 抓 包 时 ， 我 们 使 用 “port domain” 来 过 小 数据 
包 ， 表 示 只 抓 取 使 用 domain (域名 ) 服务 的 数据 包 ， 即 DNS 查询 和 应 
答 报 文 。tcpdump 的 输出 如 下 : 
1.IP 192.168.1.198.34319>219.239.26.42.53:57428+A?www.baidu.com. 
(31) 


2.IP 219.239.26.42.53>192.168.1.108.34319:57428 3/4/4 CNAME 
www.a.shifen.com.,A 119.75.218.77,A 119.75.217.56(226) 


这 两 个 数据 包 开 始 的 “IP” 指 出 ， 它 们 后 面 的 内 容 描 述 的 是 IP 数 据 
报 。tcpdump 以 “*IP 地 址 .端口 号 ”的 形式 来 描述 通信 的 某 一 端 ; 以 “> ” 表 
示 数 据 传输 的 方向 ,“> ”前 面 是 源 端 ， 后 面 是 目的 端 。 可 见 ， 第 一 个 
数据 包 是 测试 机 器 ernest-laptop (IP 地 址 是 192.168.1.108) 向 其 首选 DNS 


服务 器 〈IP 地 址 是 219.239.26.42) 发 送 的 DNS 查询 报 文 (目标 端口 53 是 
DNS 服务 使 用 的 端口 ， 这 一 点 我 们 在 前 面 介 绍 过 ) ， 第 二 个 数据 包 是 
服务 器 反馈 的 DNS 应 答 报 文 。 


第 一 个 数据 包 中 ， 数 值 57428 是 DNS 查询 报 文 的 标识 值 ， 因 此 该 值 
也 出 现在 DNS 应 答 报 文中 。“+” 表 示 局 用 递归 查询 标志 。“A?” 表 示 使 用 
A 类 型 的 查询 方式 。“www.baidu.com” 则 是 DNS 查 询问 题 中 的 查询 名 。 
括号 中 的 数值 31 是 DNS 查询 报 文 的 长 度 (以 字 市 为 单位 ) 。 


第 二 个 数据 包 中 ,，“3/4/4” 表 示 该 报 文中 包含 3 个 应 管 资源 记录 、4 
个 授权 资源 记录 和 4 个 额外 信息 记录 。“CNAME www.a.shifen.com.，A 
119.75.218.77，A 119.75.217.56” 则 表示 3 个 应 管 资 源 记 录 的 内 容 。 其 中 
CNAME 表 示 紧 随 其 后 的 记录 是 机 器 的 别名 ，A 表 示 紧 随 其 后 的 记录 是 
IP 地 址 。 该 应 答 报 文 的 长 度 为 226 字 节 。 


注意 ”我 们 抓 包 的 时 候 没有 开局 tcpdump 的 -X 选 项 (或 者 -x 选 
项 ) 。 如 采 使 用 -Xx 选项 ， 我 们 将 能 看 到 DNS 报 文 的 每 一 个 字 节 ， 也 就 
能 明白 上 面 31 字 节 的 查询 报 文 和 226 字 节 的 应 答 报 文 的 具体 含义 。 限 于 
篇 幅 ， 这 里 不 再 讨论 ， 读 者 不 妨 目 己 分 析 。 


[1 “标识 ”和 “标志 ”在 《现代 汉语 词典 (第 5 版 ) 》 中 表示 同一 含义 ， 但 
是 在 本 书 中 (计算 机 业界 也 是 如 此 ) ， 它 们 为 两 个 概念 ， 代 表 不 同 的 
舍 义 ， 读 者 在 阅读 时 应 户 格 区 分 。 


1.7 ”socket 和 TCP/IP 协 议 族 的 关系 


前 文 提 到 ， 数 据 链 路 层 、 网 络 层 、 传 输 层 协议 是 在 内 核 中 实现 
的 。 因 此 操作 系统 需要 实现 一 组 系统 调用 ， 使 得 应 用 程序 能 够 访问 这 
些 协议 提供 的 服务 。 实 现 这 组 系统 调用 的 API (Application 
Programming Interface， 应 用 程序 编程 接口 ) 主要 有 两 套 : socket 和 
XTI。XTI 现 在 基本 不 再 使 用 ， 本 书 仅 讨 论 socket。 图 1-1 显 示 了 socket 
与 TCP/IP 协 议 族 的 关系 。 


由 socket 定 义 的 这 一 组 API 提 供 如 下 两 点 功能 : 一 是 将 应 用 程序 数 
据 从 用 户 缓冲 区 中 复制 到 TCP/UDP 内 核发 送 缓冲 区 ， 以 交付 内 核 来 发 
送 数 据 〈 比 如 图 1-5 所 示 的 send 函 数 ) ， 或 者 是 从 内 核 TCP/UDP 接 收 组 
冲 区 中 复制 数据 到 用 户 缓 冲 区 ， 以 读 取 数据 ， 二 是 应 用 程序 可 以 通过 
它们 来 修改 内 核 中 各 层 协议 的 某 些 头 部 信息 或 其 他 数据 结构 ， 从 而 精 
细 地 控制 底层 通信 的 行为 。 比 如 可 以 通过 setsockopt 函 数 来 设置 耻 数 据 
报 在 网 络 上 的 存活 时 间 。 我 们 将 在 第 5 章 详细 讨论 这 一 组 API。 


值得 一 提 的 是 ，socket 是 一 套 通用 网 络 编程 接口 ， 它 不 但 可 以 访 
问 内 核 中 TCP/IP 协 议 栈 ， 而 且 可 以 访问 其 他 网 络 协 议 栈 (比如 X.25 协 
议 栈 、UNIX 本 地 域 协议 栈 等 ) 。 


第 2 章 TIP 协 议 详解 


IP 协 议 是 TCP/IP 协 议 族 的 核心 协议 ， 也 十 socket 网 络 编程 的 基础 之 
一 。 本 章 从 两 个 方面 较为 深入 地 探讨 IP 协 议 : 


DIP 头 部 信息 。IP 头 部 信息 出 现在 每 个 1p 数据 报 中 ， 用 于 指定 人 Pp 通 
信 的 源 端 tp 地 址 、 目 的 端 tp 地 址 ， 指 导 IP 分 片 和 重组 ， 以 及 指定 部 分 
通信 行为 。 


DIP 数 据 报 的 路 由 和 转发 。IP 数 据 报 的 路 由 和 转发 发 生 在 除 目 标 
机 器 之 外 的 所 有 主机 和 路 由 器 上 。 它 们 决定 数据 报 是 否 应 该 转发 以 及 
如 何 转 发 。 


由 于 32 位 表示 的 IP 地 址 即将 全 部 使 用 完 ， 因 此 人 们 开发 出 了 新 版 
本 的 TP 协议 ， 称 为 IPv6 协 议 ， 而 原来 的 版 本 则 称 为 IPv4 协 议 。 本 章 前 
面部 分 的 讨论 都 是 基于 IPv4 协 议 的 ， 只 在 最 后 一 节 简要 讨论 Ipv6 协 
议 。 


在 开始 讨论 前 ， 我 们 先 人 简单 介 绍 一 下 IP 服 务 。 


2.1 IP 上 服务 的 特点 


IP 协 议 是 TCP/IP 协 议 族 的 动力 ， 它 为 上 层 协议 提供 无 状态 、 无 连 
接 、 不 可 靠 的 服务 。 


无 状态 (stateless) 是 指 IP 通 信 双 方 不 同步 传输 数据 的 状态 信息 ， 
因此 所 有 IP 数 据 报 的 发 送 、 传 输 和 接收 都 是 相互 独立 、 没 有 上 下 文 关 
系 的 。 这 种 服务 最 大 的 缺点 是 无 法 处 理 乱 序 和 重复 的 IP 数 据 报 。 比 如 
发 送 端 发 送出 的 第 N 个 IP 数 据 报 可 能 比 第 N+1 个 IP 数 据 报 后 到 达 接 收 
端 ， 而 同一 个 了 数据 报 也 可 能 经 过 不 同 的 路 径 多 次 到 达 接 收 端 。 在 这 
两 种 情况 下 ， 接 收 端的 IP 模 块 无 法 检测 到 乱 序 和 重复 ， 因 为 这 些 IP 数 
据 报 之 间 没 有 任何 上 下 文 关系 。 接 收 端 的 耳 模块 只 要 收 到 了 完整 的 卫 
数据 报 《如果 是 IP 分 片 的 话 ， 卫 模块 将 先 执行 重组 ) ， 就 将 其 数据 部 
分 〈TCP 报 文 段 、UDP 数 据 报 或 者 ICMP 报 文 ) 上 交 给 上 层 协 议 。 那 么 
从 上 层 协 议 来 看 ， 这 些 数据 就 可 能 是 乱 序 的 、 重 复 的 。 面 向 连接 的 协 
议 ， 比 如 TCP 协 议 ， 则 能 够 自己 处 理 乱 序 的 、 重 复 的 报 文 段 ， 它 递交 
给 上 层 协议 的 内 容 绝对 是 有 序 的 、 正 确 的 。 


虽然 数据 报头 部 提供 了 一 个 标识 字段 〈 见 后 文 ) 用 以 唯一 标识 
一 个 IP 数 据 报 ， 但 它 是 被 用 来 处 理 IP 分 片 和 重组 的 ， 而 不 是 用 来 指示 
接收 顺序 的 。 


无 状态 服务 的 优点 也 很 明显 : 简单 、 高 效 。 我 们 无 须 为 保持 通信 
的 状态 而 分 配 一 些 内 核资 源 ， 也 无 须 每 次 传输 数据 时 都 携 市 状态 信 
思 。 在 网 络 协议 中 ， 无 状态 是 很 解 见 的 ， 比 如 UDP 协议 和 HTTP 协 议 都 


古 无 状态 协议 。 以 HTTP 协 议 为 例 ， 一 个 浏览 大 的 连续 两 次 网 页 请 求 之 
间 没 有 任何 关联 ， 它 们 将 被 Web 服 务 右 独立 地 处 理 。 


无 连接 (connectionless) 是 指 IP 通 信 双 方 都 不 长 久 地 维持 对 方 的 
任何 信息 。 这 样 ， 上 层 协 议 每 次 发 送 数据 的 时 候 ， 都 必须 明确 指定 对 
方 的 IP 地 址 。 


不 可 靠 是 指 IP 协 议 不 能 保证 IP 数 据 报 准确 地 到 达 接 收 端 ， 它 只 是 
承诺 尽 最 大 努力 (best effort) 。 很 多 种 情况 都 能 导致 IP 数 据 报 发 送 失 
败 。 比 如 ， 某 个 中 转 路 由 器 发 现 IP 数 据 报 在 网 络 上 存活 的 时 间 太 长 
(根据 JP 数据 报头 部 字段 TIL 判断 ， 见 后 文 ) ， 那 么 它 将 丢弃 之 ， 并 
返回 一 个 ICMP 错 误 消 息 (超时 错误 ) 给 发 送 端 。 又 比如 ， 接 收 端 发 现 
收 到 的 IP 数 据 报 不 正确 (通过 校 验 机 制 ，， 它 也 将 丢弃 之 ， 并 返回 一 
个 ICMP 错 误 消息 (IP 头 部 参数 错误 ) 给 发 送 端 。 无 论 哪 种 情况 ， 发 送 
端的 IP 模 块 一 旦 检测 到 IP 数 据 报 发 送 失 败 ， 就 通知 上 层 协议 发 送 失 
败 ， 而 不 会 试图 重 传 。 因 此 ， 使 用 IP 服 务 的 上 层 协 议 (比如 TCP 协 
议 ) 需要 自己 实现 数据 确认 、 超 时 重 传 等 机 制 以 达到 可 靠 传输 的 目 
的 。 


2.2 ”IPv4 头 部 结构 
2.2.1 IPv4 头 部 结构 


IPv4 的 头 部 结构 如 图 2-1 所 示 。 其 长 度 通常 为 20 字 方 ， 除 非 含 有 可 


变 长 的 选项 部 分 。 


0 ls: 16 旨 


人 16 位 总 长 度 〈 字 节 数 ) 


16 位 标识 13 位 片 偏 移 


8 位 生存 时 间 ， 
32 位 源 端 耻 地 址 
32 位 目的 端 耻 地 址 


选项 ， 最 多 40 字 节 
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图 2-1 IPv4 头 部 结构 


4 位 版 本 号 (version) 指定 IP 协 议 的 版 本 。 对 IPv4 来 说 ， 其 值 是 4 。 
其 他 IPv4 协 议 的 扩展 版 本 (如 SIP 协 议和 PIP 协 议 ) ， 则 具有 不 同 的 版 本 
号 〈 它 们 的 头 部 结构 也 和 图 2-1 不 同 ) 。 


4 位 头 部 长 度 (header length) 标识 该 IP 头 部 有 多 少 个 32 bit 字 (4 字 
节 ) 。 因 为 4 位 最 大 能 表示 15， 所 以 IP 头 部 最 长 是 60 字 节 。 


8 位 服务 类 型 (Type Of Service，TOS) 包括 一 个 3 位 的 优先 权 字 段 
(现在 已 经 被 忽略 ) ，4 位 的 TOS 字 段 和 1 位 保留 字段 (必须 置 0) 。4 位 
的 TOS 字 段 分 别 表示 : 最 小 延 时 ， 最 大 吞吐 量 ， 最 高 可 靠 性 和 最 小 费 
用 。 其 中 最 多 有 一 个 能 置 为 1， 应 用 程序 应 该 根据 实际 需要 来 设置 它 。 
比如 像 sh 和 telnet 这 样 的 登录 程序 需要 的 是 最 小 延 时 的 服务 ， 而 文件 传 
输 程 序 ftp 则 需要 和 最 大 吞吐 量 的 服务 。 


16 位 总 长 度 (total length) 是 指 整个 了 数据 报 的 长 度 ， 以 字 节 为 单 
位 ， 因 此 IP 数 据 报 的 最 大 长 度 为 65 535 (21 -1) 字 节 。 但 由 于 MTU 的 
限制 ， 长 度 超过 MTU 的 数据 报 都 将 被 分 片 传输 ， 所 以 实际 传输 的 IP 数 
据 报 (或 分 片 ， 的 长 度 都 远 远 没 有 达到 最 大 值 。 接 下 来 的 3 个 字段 则 描 
述 了 如 何 实现 分 片 。 


16 位 标识 (identification) 唯一 地 标识 主机 发 送 的 每 一 个 数据 报 。 
其 初始 值 由 系统 随机 生成 ， 每 发 送 一 个 数据 报 ， 其 值 束 加 1。 该 值 在 数 
据 报 分 片 时 被 复制 到 每 个 分 片 中 ， 因 此 同一 个 数据 报 的 所 有 分 片 都 具 
有 相同 的 标识 值 。 


3 位 标志 字段 的 第 一 位 保留 。 第 二 位 (Don't Fragment，DF) 表 
示 “ 禁 止 分 片 ”。 如 果 设 置 了 这 个 位 ，IP 模 块 将 不 对 数据 报 进行 分 片 。 在 
这 种 情况 下 ， 如 果 IP 数 据 报 长 度 超 过 MTU 的 话 ，IP 模 块 将 丢弃 该 数据 
报 并 返回 一 个 ICMP 差 错 报 文 。 第 三 位 (More Fragment，MF) 表示 “更 
多 分 片 ”。 除了 数据 报 的 最 后 一 个 分 片 外 ， 其 他 分 片 都 要 把 它 置 1 。 


13 位 分 片 偏 移 (fragmentation offset) 是 分 片 相对 原始 IP 数 据 报 开 
处 ( 仅 指 数据 部 分 的 偏 移 。 实 际 的 偏 移 值 是 该 值 左 移 3 位 〈 乘 8) 
后 得 到 的 。 由 于 这 个 原因 ， 除 了 最 后 一 个 IP 分 片 外， 每 个 IP 分 片 的 数据 
部 分 的 长 度 必须 是 8 的 整数 倍 (这 样 才能 保证 后 面 的 IP 分 片 拥有 一 个 合 
适 的 侦 移 值 ) 。 


8 位 生存 时 间 (Time To Live，TTL) 是 数据 报到 达 目 的 地 之 前 允许 
经 过 的 路 由 器 跳 数 。TTL 值 被 发 送 端 设置 (常见 的 值 是 64) 。 数 据 报 在 
转发 过 程 中 每 经 过 一 个 路 由 ， 该 值 就 被 路 由 器 减 1。 当 TIL 值 减 为 0 时 ， 
路 由 器 将 丢弃 数据 报 ， 并 向 源 端 发 送 一 个 ICMP 差 错 报 文 。TTL 值 可 以 
防止 数据 报 陷 入 路 由 循环 。 


8 位 协议 (protocol) 用 来 区 分 上 层 协议 ， 我 们 在 第 1 章 讨论 
过 。/etc/protocols 文 件 定 义 了 所 有 上 层 协议 对 应 的 protocol 字 段 的 数值 。 
其 中 ，ICMP 是 1，TCP 是 6，UDP 是 17。/etc/protocols 文 件 是 RFC 1700 的 


一 个 子 集 。 


16 位 头 部 校 验 和 (header checksum) 由 发 送 端 填充 ， 接 收 端 对 其 
使 用 CRC 算 法 以 检验 IP 数 据 报头 部 (注意 ， 仅 检验 头 部 ， 在 传输 过 程 
中 是 否 损坏 。 


32 位 的 源 端 IP 地 址 和 目的 端 IP 地 址 用 来 标识 数据 报 的 发 送 端 和 接收 
端 。 一 般 情况 下 ， 这 两 个 地 址 在 整个 数据 报 的 传递 过 程 中 保持 不 变 ， 


而 不 论 它 中 间 经 过 多 少 个 中 转 路 由 器 。 关 于 这 一 点 ， 我 们 将 在 第 4 章 进 


一 步 讨论 。 


IPv4 最 后 一 个 选项 字段 (option) 是 可 变 长 的 可 选 信息 。 这 部 分 最 
多 包含 40 字 节 ， 因 为 I1P 头 部 最 长 是 60 字 节 (其 中 还 包含 前 面 讨论 的 20 
字 节 的 固定 部 分 | 。 可 用 的 卫 选 项 包括 : 


口 记录 路 由 (record route) ， 告 诉 数据 报 途 经 的 所 有 路 由 器 都 将 自 
己 的 IP 地 址 填 入 IP 头 部 的 选项 部 分 ， 这 样 我 们 就 可 以 跟踪 数据 报 的 传递 
路 径 。 


口 时 间 戳 (timestamp) ， 告 诉 每 个 路 由 器 都 将 数据 报 被 转发 的 时 
间 《或 时 间 与 耳 地 址 对 ) 填 入 IP 头 部 的 选项 部 分 ， 这 样 就 可 以 测量 途经 
路 由 之 间 数 据 报 传输 的 时 间 。 


口 松散 源 路 由 选择 (loose source routing) ， 指 定 一 个 路 由 器 也 地 
址 列表 ， 数 据 报 发 送 过 程 中 必须 经 过 其 中 所 有 的 路 由 器 。 


口 严格 源 路 由 选择 (strict source routing) ， 和 松散 源 路 由 选择 类 
似 ， 不 过 数据 报 只 能 经 过 被 指定 的 路 由 器 。 


关于 IP 头 部 选项 字段 更 详细 的 信息 ， 请 参考 ITP 协 议 的 标准 文档 RFC 
791。 不 过 这 些 选 项 字段 很 少 被 使 用 ， 使 用 松散 源 路 由 选择 和 产 格 源 路 
由 选择 选项 的 例子 大 概 仅 有 traceroute 程 序 。 此 外 ， 作 为 记录 路 由 IP 选 


项 的 替代 品 ，traceroute 程 序 使 用 UDP 报 文 和 ICMP 报 文 实现 了 更 可 靠 的 
记录 路 由 功能 ， 详 情 请 参考 文档 RFC 1393 。 


2.2.2 ”使 用 tcpdump 观 察 IPv4 头 部 结构 


为 了 深入 理解 IPv4 尖 部 中 每 个 字段 的 含义 ， 我 们 从 测试 机 器 ernest- 
laptop 上 执行 telnet 命 令 登 录 本 机 ， 并 用 tcpdump 抓 取 这 个 过 程 中 telnet 客 
户 端 程序 和 telnet 服 务 器 程序 之 间 交 换 的 数据 包 。 上 有 具体 的 操作 过 程 如 
下 : 


$sudo tcpdump-ntx-i 1o# 抓 取 本 地 回路 上 的 数据 包 
$telnet 127.0.0.1# 开 启 男 一 个 终端 执行 Ltelnet 命 令 登 录 本 机 
Trying 127.0.0.1... 

Connected to 127.0.0.1. 

Escape character is'^]'. 

Ubuntu 9.10 

ernest-laptop login:ernest# 输 入 用 户 名 并 回 车 
Password:# 输 入 密码 并 回 车 


此 时 观察 tctpdump 输 出 的 第 一 个 数据 包 ， 其 内 容 如 代码 清单 2-1 所 


泵 。 
代码 清单 2-1 用 tcpdump 抓 取 数据 包 


IP 127.0.0.1.41621>127.0.0.1.23:Flags[S],seq 3499745539, win 
32792， 

options[mss 16396,sackOK,TS val 40781017 ecr 0,nop,wscale 
6], length 0 

0X0000 :4510 003c a5da 4000 4006 96cf 7f00 0001 

0Xx0010 :7f00 0001 a295 0017 d099 e103 0000 0000 

Ox0020:a002 8018 fe30 0000 0204 400c 0402 080a 


Ox0030:026e 44d9 0000 0000 0103 0306 


该 数据 包 描述 的 是 一 个 IP 数 据 报 。 由 于 我 们 是 使 用 telnet 登 录 本 机 
的 ， 所 以 了 数据 报 的 源 端 了 P 地 址 和 目的 端 耻 地 址 都 是 “127.0.0.1”。telnet 
服务 器 程序 使 用 的 端口 号 是 23 (参见 /etc/services 文 件 ) ， 而 telnet 客 户 
端 程序 使 用 临时 端口 号 41621 与 服务 。 关 于 临时 端口 号 ， 我 们 将 
在 第 3 章 讨论 。“Flags”、“seq”、 ed 
息 ， 这 也 将 在 第 3 章 讨 论 。“]length” 指 出 该 IP 数 据 报 所 携 市 的 应 用 程序 数 
据 的 长 度 。 


这 次 抓 包 我 们 开启 了 tcpdump 的 -x 选项 ， 使 之 输出 数据 包 的 二 进 制 
码 。 此 数据 包 共 包含 60 字 节 ， 其 中 前 20 字 市 是 IP 头 部 ， 后 40 字 闻 是 TCP 
头 部 ， 不 包含 应 用 程序 数据 (length 值 为 0) 。 现 在 我 们 分 析 IP 头 部 的 
， 如 表 2-1 所 示 。 


人 


表 2-1 1IPv4 头 部 各 个 字段 详解 
十 六 进 制 数 十 进 制 表示 中 IP 头 部 信息 


0x5 头 部 长 度 为 5 个 32 位 (20 字 节 ) 

0x10 TOS 选项 中 最 小 延 时 服务 被 开启 

0x003c 60 数据 报 总 长 度 ，60 字 节 

0xa5da 数据 报 标识 

0x4 设置 了 禁止 分 片 标志 

0x000 0 分 片 偏 移 

0x40 TTL 被 设 为 64 

0x06 协议 字段 为 6， 表示 上 层 协议 是 TCP 协议 
0x7f000001 | 32 位 源 端 IP 地 址 127.0.0.1 

0x7f000001 | 32 位 目的 端 全 地址 127.0.0.1 


由 表 2-1 可 见 ，telnet 服 务 选择 使 用 具有 最 小 延 时 的 服务 ， 并 且 默 认 
使 用 的 传输 层 协 议 是 TCP 协 议 (回顾 第 1 章 讨论 的 分 用 ) 。 这 些 都 符合 
我 们 通 芝 的 理解 。 这 个 IP 数 据 报 没有 被 分 片 ， 因 为 它 没有 携 市 任何 应 
用 程序 数据 。 接 下 来 我 们 将 抓 取 并 讨论 被 分 片 的 IP 数 据 报 。 


[1] 此 列 中 的 空格 表示 我 们 并 不 关心 相应 字段 的 十 进 制 值 。 


2.3 TIP 分 片 


前 文 曾 提 到 ， 当 IP 数 据 报 的 长 度 超过 帧 的 MTU 时 ， 它 将 被 分 片 传 
输 。 分 片 可 能 发 生 在 发 送 病 ， 也 可 能 发 生 在 中 转 路 由 郁 上 ， 而 且 可 能 
在 传输 过 程 中 被 多 次 分 片 ， 但 只 有 在 最 终 的 目标 机 事 上 ， 这 些 分 片 才 
会 被 内 核 中 的 人 P 模 块 重新 组 装 。 


PP 头 部 中 的 如 下 三 个 字段 给 下 的 分 乒 和 重组 提供 了 足够 的 信息 : 数 
据 报 标识 、 标 志和 片 仿 移 。 一 个 I 了 数据 报 的 每 个 分 乒 都 具有 目 己 的 卫 头 
部 ， 它 们 具有 相同 的 标识 值 ， 但 具有 不 同 的 请 偏 移 。 并 且 除 了 最 后 一 
个 分 户外， 其 他 分 片 都 将 设置 MF 标 志 。 此 外 ， 每 个 分 斤 的 下 头 部 的 总 
长 度 字 段 将 被 设置 为 该 分 片 的 长 度 。 


以 太 网 帧 的 MTU 是 1500 字 节 〈 可 以 通过 ifconfig 命 令 或 者 netstat 命 
令 查 看 ) ， 因 此 它 携 带 的 IP 数 据 报 的 数据 部 分 最 多 是 1480 字 市 (IP 头 部 
占用 20 字 下 ) 。 考 虑 用 IP 数 据 报 封装 一 个 长 度 为 1481 字 蔬 的 ICMP 报 文 
(包括 8 字 节 的 ICMP 头 部 ， 所 以 其 数据 部 分 长 度 为 1473 字 市 ) ， 则 该 
数据 报 在 使 用 以 太 网 帧 传输 时 必须 被 分 片 ， 如 图 2-2 所 示 。 


IP 数 据 报 (1501 字 节 ) 
ICMP 报 文 (1481 字 节 ) 
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ICMP 数 据 
1472 字 节 


ICMP 头 部 
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IP 分 片 “1500 字 节 ) 


图 2-2 携带 ICMP 报 文 的 IP 数 据 报 被 分 片 


IP 头 部 (设置 MF) 


图 2-2 中 ， 长 度 为 1501 字 节 的 IP 数 据 报 被 拆 分 成 两 个 IP 分 片 ， 第 一 
个 IP 分 片 长 度 为 1500 字 节 ， 第 二 个 IP 分 片 的 长 度 为 21 字 节 。 每 个 IP 分 片 
都 包含 自己 的 耳 头 部 (20 字 下 ) ， 且 第 一 个 IP 分 片 的 IP 头 部 设置 了 MF 
标志 ， 而 第 二 个 IP 分 片 的 IP 头 部 则 没有 设置 该 标志 ， 因 为 它 已 经 是 最 后 
一 个 分 片 了 。 原始 IP 数 据 报 中 的 ICMP 头 部 内 容 被 完整 地 复制 到 了 第 一 
个 IP 分 片 中 。 第 二 个 IP 分 片 不 包含 ICMP 头 部 信息 ， 因 为 IP 模 块 重组 该 
ICMP 报 文 的 时 候 只 需要 一 份 ICMP 头 部 信息 ， 重 复 传送 这 个 信息 没有 
任何 益处 。1473 字 太 的 ICMP 报 文 数据 的 前 1472 字 廊 被 IP 模 块 复制 到 第 
一 个 IP 分 片 中 ， 使 其 总 长 度 为 1500 字 节 ， 从 而 满足 MTU 的 要 求 ， 而 多 
出 的 最 后 1 字 市 则 被 复制 到 第 二 个 IP 分 片 中 。 


需要 指出 的 是 ，ICMP 报 文 的 头 部 长 度 取决 于 报 文 的 类 型 ， 其 变化 
范围 很 大 。 图 2-2 以 8 字 节 为 例 ， 因 为 后 面 的 例子 用 到 了 ping 程 序 ， 而 
ping 程 序 使 用 的 ICMP 回 显 和 应 答 报 文 的 头 部 长 度 是 8 字 节 。 


为 了 看 清楚 了 分 片 的 具体 过 程 ， 考 虑 从 ernest-laptop 来 ping 机 堪 
Kongming20， 每 次 传送 1473 字 市 的 数据 (这 是 ICMP 报 文 的 数据 部 分 ) 
以 强制 引起 卫 分 片 ， 并 用 tcpdump 抓 取 这 一 过 程 中 双方 交换 的 数据 包 。 
具体 操作 过 程 如 下 : 


$sudo tcpdump-ntv-i ethg icmp# 只 抓 取 ICMP 报 文 
$ping Kongming20-s 1473# 用 - s 选 项 指定 每 次 发 送 1473 字 节 的 数据 


下 面 我 们 考察 tepdump 输 出 的 一 个 卫 数 据 报 的 两 个 分 片 ， 其 内 容 如 
下 : 
1.IP(tos 0xo,tt1 64,1id 61197,offset 0,flags[+],proto 
ICMP(1),1length 1500)192.168.1.108>192.168.1.110:ICMP echo 
request, id 41737, seq 1,1length 1480 


2.IP(tos OxO0,ttl1 64, id 61197,offset 1480,flags[none],proto 
ICMP(1),1length 21)192.168.1.108>192.168.1.110:icmp 


这 两 个 IP 分 片 的 标识 值 都 是 61197， 说 明 它 们 是 同一 个 IP 数 据 报 的 
分 片 。 第 一 个 分 片 的 片 偏 移 值 为 0， 而 第 二 个 则 是 1480。 很 显然 ， 第 二 
个 分 片 的 厂 偏 移 值 实际 上 也 是 第 一 个 分 片 的 ICMP 报 文 的 长 度 。 第 一 个 
分 厂 设 置 了 MF 标志 以 表示 还 有 后 续 分 片 ， 所 以 tcpdump 输 
出 “flags[+]”*°。 而 第 二 个 分 厂 则 没有 设置 任何 标志 ， 所 以 tcpdump 输 
出 “flags[none]”。 这 个 两 个 分 斤 的 长 度 分 别 为 1500 字 节 和 21 字 节 ， 这 与 
图 2-2 摘 述 的 一 致 。 


如 后 ，IP 层 传递 给 数据 链 路 层 的 数据 可 能 是 一 个 完整 的 IP 数 据 报 ， 
也 可 能 是 一 个 IP 分 片 ， 它 们 统称 为 IP 分 组 (packet) 。 本 书 如 无 特殊 声 
明 ， 不 区 分 IP 数 据 报 和 IP 分 组 。 


2.4 ”IP 路 由 


PP 协议 的 一 个 核心 任务 是 数据 报 的 路 由 ， 即 决定 发 送 数 据 报 到 目 
标 机 夯 的 路 径 。 为 了 理解 IP 路 由 过 程 ， 我 们 移 商 要 分 析 IP 模 块 的 基本 工 
作 流程 。 


2.4.1 ”IP 模块 工作 流程 


IP 模 块 基本 工作 流程 如 图 2-3 所 示 。 


发 大 给 本 机 的 
数据 报 ? 
处 


下 理 IP 头 部 
选项 


发 往 网 络 驱动 程序 来 自 网 络 驱 动 程序 


图 2-3 IP 模块 基本 工作 流程 


我 们 从 右 往 左 来 分 析 图 2-3。 当 IP 模 块 接收 到 来 自 数 据 链 路 层 的 IP 
数据 报时 ， 它 首先 对 该 数据 报 的 头 部 做 CRC 校 验 ， 确 认 无 误 之 后 就 分 
析 其 头 部 的 具体 信息 。 


如 果 该 IP 数 据 报 的 头 部 设置 了 源 站 选 路 选项 (松散 源 路 由 选择 或 
严格 源 路 由 选择 ) ， 则 耳 模块 调用 数据 报 转发 子 模块 来 处 理 该 数据 
报 。 如 果 该 IP 数 据 报 的 头 部 中 目标 耳 地 址 是 本 机 的 某 个 耳 地 址 ， 或 者 是 
广播 地 址 ， 即 该 数据 报 是 发 送 给 本 机 的 ， 则 JP 模块 束 根 据 数 据 报头 部 
中 的 协议 字段 来 决定 将 它 派发 给 哪个 上 层 应 用 (分 用 ) 。 如 果 IP 模 块 
发 现 这 个 数据 报 不 是 发 送 给 本 机 的 ， 则 也 调用 数据 报 转发 于 模块 来 处 
理 该 数据 报 。 


数据 报 转发 子 模块 将 正 先 检测 系统 是 否 允 许 转 发 ， 如 琳 不 允许， 
IP 模 块 束 将 数据 报 丢 弃 。 如 果 人 允许， 数据 报 转发 于 模块 将 对 该 数据 报 
执行 一 些 操作 ， 然 后 将 它 交 给 IP 数 据 报 输出 子 模块 。 我 们 将 在 后 面 讨 
论 数 据 报 转发 的 具体 过 程 。 


IP 数 据 报应 该 发 送 至 哪个 下 一 跳 路 由 〈 或 者 目标 机 器 ) ， 以 及 经 
过 哪个 网 卡 来 发 送 ， 束 是 IP 路 由 过 程 ， 即 图 2-3 中 “计算 下 一 跳 路 由 ? 子 
模块 。IP 模 块 实现 数据 报 路 由 的 核心 数据 结构 是 路 由 表 。 这 个 表 按 照 
数据 报 的 目标 IP 地 址 分 类 ， 同 一 类 型 的 IP 数 据 报 将 被 发 往 相同 的 下 一 跳 
路 由 器 (或 者 目标 机 器 ) 。 我 们 将 在 后 面 讨论 人 Pp 路 由 过 程 。 


IP 输 出 队列 中 存放 的 是 所 有 等 待 发 送 的 也 数据 报 ， 其 中 除了 需要 转 
发 的 也 数据 报 外 ， 还 包括 封装 了 本 机 上 层 数 据 (ICMP 报 文 、TCP 报 文 
段 和 UDP 数据 报 ) 的 IP 数 据 报 。 


图 2-3 中 的 虚线 稍 尖 显 示 了 路 由 表 更 新 的 过 程 。 这 一 过 程 是 指 通 过 
路 由 协议 或 者 route 命 令 调整 路 由 表 ， 使 之 更 适应 最 新 的 网 络 拓 扑 结 
构 ， 称 为 IP 路 由 党 上 略 。 我 们 将 在 后 面 价 单 讨论 它 。 


2.4.2 ”路 由 机 制 


要 人 研究 IP 路 由 机 制 ， 需 要 和 完了 解 路 由 表 的 内 容 。 我 们 可 以 使 用 
route 命 令 或 netstat 命 令 查 看 路 由 表 。 在 测试 机 群 ernest-laptop 上 执行 
route 命 令 ， 输 出 内 容 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 ”路 由 表 实 例 


Kernel IP routing table 

Destination Gateway Genmask Flags Metric Ref Use Iface 
default 192.168.1.1 0.0.0.0 UG 0 0 0 etho 
192.168.1.0*255.255.255.0 U10 0 etho 


该 路 由 表 包 含 两 项 ， 每 项 部 包含 8 个 字段 ， 如 表 2-2 所 示 。 


表 2-2 路 由 表 内 容 


字 段 含 这 
Destination 目标 网 络 或 主机 
Gateway 网 关 地 址 ，* 表示 目标 和 本 机 在 同一 个 网 络 ， 不 需要 路 由 
Genmask 网 络 掩 码 


路 由 项 标志 ， 常 见 标志 有 如 下 5 种 (更 多 标志 见 route 命令 的 man 手册 ): 
口 U， 该 路 由 项 是 活动 的 ; 
口 了 本， 该 路 由 项 的 目标 是 一 台 主 机 ; 


Sag 口 G， 该 路 由 项 的 目标 是 网 关 ; 

口 D， 该 路 由 项 是 由 重 定向 生成 的 ; 

口 M， 该 路 由 项 被 重 定向 修改 过 
Metric 路 由 距离 ， 即 到 达 指 定 网 络 所 需 的 中 转 数 
Ref 路 由 项 被 引用 的 次 数 (Linux 未 使 用 ) 
Use 该 路 由 项 被 使 用 的 次 数 
Iface 该 路 由 项 对 应 的 输出 网 卡 接口 


代码 清单 2-2 所 示 的 路 由 表 中 ， 第 一 项 的 目标 地 址 是 default， 即 所 
谓 的 默认 路 由 项 。 该 项 包含 一 个 “G” 标 志 ， 说 明 路 由 的 下 一 跳 目 标 是 网 
关 ， 其 地 址 是 192.168.1.1 (这 是 测试 网 络 中 路 由 器 的 本 地 IP 地 址 ) 。 另 
外 一 个 路 由 项 的 目标 地 址 是 192.168.1.0， 它 指 的 是 本 地 局 域 网 。 该 路 由 
项 的 网 关 地 址 为 *， 说 明 数 据 报 不 需要 路 由 中 转 ， 可 以 直接 发 送 到 目标 
机 器 。 


那么 路 由 表 是 如 何 按照 IP 地 址 分 类 的 呢 ? 或 者 说 给 定数 据 报 的 目 
标 IP 地 址 ， 它 将 匹配 路 由 表 中 的 哪 一 项 呢 ? 这 就 古 IP 的 路 由 机 制 ， 分 为 


3 个 步 又 : 


1) 查找 路 由 表 中 和 数据 报 的 目标 人 P 地 址 完全 匹配 的 主机 IP 地 址 。 
如 琳 找 到 ， 束 使 用 该 路 由 项 ， 没 找到 则 转 步 又 2 。 


2) 查找 路 由 表 中 和 数据 报 的 目标 耳 地 址 具有 相同 网 路 ID 的 网 络 IP 
地 址 《比如 代码 清单 2-2 所 示 的 路 由 表 中 的 第 二 项 ) 。 如 果 找 到 ， 如 使 
用 该 路 由 项 ， 没 找到 则 转 步 又 3。 


3) 选择 默认 路 由 项 ， 这 通 前 意味 着 数据 报 的 下 一 跳 路 由 是 网 关 。 


因此 ， 对 于 测试 机 器 ernest-laptop 而 言 ， 所 有 发 送 到 IP 地 址 为 
192.168.1.* 的 机 器 的 IP 数 据 报 都 可 以 直接 发 送 到 目标 机 三 匹配 路 由 表 
第 二 项 ) ， 而 所 有 访问 因特网 的 请 求 都 将 通过 网 关 来 转发 (匹配 默认 
路 由 项 ) 。 


2.4.3 ”路 由 表 更 新 


路 由 表 必 须 能 够 更 新 ， 以 反映 网 络 连接 的 变化 ， 这 样 IP 模 块 才能 
准确 、 高 效 地 转发 数据 报 。route 命 令 可 以 修改 路 由 表 。 我 们 看 如 下 几 
个 例子 (在 机 器 ernest-laptop 上 执行 ) : 

$sudo route add-host 192.168.1.109 dev etho 
$sudo route del-net 192.168.1.0 netmask 255.255.255.0 


$sudo route del default 
$sudo route add default gw 192.168.1.109 dev etho 


第 1 行 表示 添加 主机 192.168.1.109 (机 器 Kongming20) 对 应 的 路 由 
项 。 这 样 设置 之 后 ， 所 有 从 ernest-laptop 发 送 到 Kongming20 的 IP 数 据 报 
将 通过 网 卡 eth0 直 接 发 送 至 目标 机 器 的 接收 网 卡 。 第 2 行 表 示 删 除 网 络 


192.168.1.0 对 应 的 路 由 项 。 这 样 ， 除 了 机 人 右 Kongming20 外 ， 测 试 机 器 
ernest-laptop 将 无 法 访问 该 局 域 网 上 的 任何 其 他 机 右 (能 访问 到 
Kongming20 是 由 于 执行 了 上 一 条 命令 ) 。 第 3 行 表示 删除 默认 路 由 项 ， 
这 样 做 的 后 果 是 无 法 访问 因特网 。 第 4 行 表示 重新 设置 默认 路 由 项 ， 不 
过 这 次 其 网 关 是 机 器 Kongming20 (而 不 是 能 直接 访问 因特网 的 路 由 
缉 ) ! 经 过 上 述 修 改 后 的 路 由 表 如 下 : 


Kernel IP routing table 
Destination Gateway Genmask Flags Metric Ref Use Iface 
Kongming20*255.255.255.255 UH 0 0 0 etho 
default Kongming20 0.0.0.0 UG 0 0 0 etho 
这 个 痢 的 路 由 表 中 ， 第 一 个 路 由 项 是 主机 路 由 项 ， 所 以 它 被 设置 
了 “H? 标 志 。 我 们 设计 这 样 一 个 路 由 表 的 目的 是 为 后 文 讨论 ICMP 重 定 


癌 提 供 环境 。 


通过 route 命 令 或 其 他 工具 手工 修改 路 由 表 ， 是 静态 的 路 由 更 新 方 
式 。 对 于 大 型 的 路 由 器 ， 它 们 通常 通过 BGP (Border Gateway 
Protocol， 边 际 网 关 协 议 ) 、RIP (Routing Information Protocol， 路 由 信 
息 协 议 ) 、OSPF 等 协议 来 发 现 路 径 ， 并 更 新 自己 的 路 由 表 。 这 种 更 新 
方式 是 动态 的 、 自 动 的 。 这 部 分 内 容 超 出 了 本 书 的 讨论 范围 ， 感 兴趣 
的 读者 可 阅读 参考 资料 1 。 


2.5 ”IP 转 发 


前 文 提 到 ， 不 是 发 送 给 本 机 的 IP 数 据 报 将 由 数据 报 转发 子 模块 来 
处 理 。 路 由 器 都 能 执行 数据 报 的 转发 操作 ， 而 主机 一 般 只 发 送 和 接收 
数据 报 ， 这 是 因为 主机 上 /proc/sys/net/ipv4/ip_forward 内 核 参数 默认 被 
设置 为 0。 我 们 可 以 通过 修改 它 来 使 能 主机 的 数据 报 转 发 功能 在 测试 
机 器 Kongming20 上 以 root 身 份 执行 ) : 


#echo 1>/proc/sys/net/ipv4/ip_forward 


对 于 允许 IP 数 据 报 转发 的 系统 (主机 或 路 由 器 ) ， 数 据 报 转发 子 
模块 将 对 期 望 转发 的 数据 报 执 行 如 下 操作 : 


1) 检查 数据 报头 部 的 TTL 值 。 如 果 TTL 值 已 经 是 0， 则 丢弃 该 数 
据 报 。 


2) 查看 数据 报头 部 的 严格 源 路 由 选择 选项 。 如 果 该 选项 被 设置 ， 
则 检测 数据 报 的 目标 耶 地址 是 否 是 本 机 的 某 个 了 P 地 址 。 如 采 不 是 ， 则 
发 送 一 个 ICMP 源 站 人选 路 失败 报 文 给 发 送 端 。 


3) 如 果 有 必要 ， 则 给 源 端 发 送 一 个 ICMP 重 定向 报 文 ， 以 告诉 它 
一 个 更 合理 的 下 一 跳 路 由 器 。 


4) 将 TTL 值 减 1 。 


5) 处 理 IP 头 部 选项 。 


6) 如 果 有 必要 ， 则 执行 耻 分 片 操作 。 


2.6 ” 重 定 问 


图 2-3 显 示 了 ICMP 重 定向 报 文 也 能 用 于 更 新 路 由 表 ， 因 此 本 节 我 们 
简要 讨论 ICMP 重 定向 。 


2.6.1 ICMP 重 定向 报 文 


ICMP 重 定 癌 报 文 格式 如 图 2-4 所 示 。 


0 LS. 16 3 


8 位 代码 16 位 校 验 和 


应 该 使 用 的 路 由 器 的 耳 地 址 


原始 IP 数 据 报 的 头 部 信息 《包括 可 选 字段 ) + 数据 部 分 的 前 8 字 节 


图 2-4 ICMP 重 定向 报 文 格式 


我 们 在 1.1 节 讨论 过 ICMP 报 文 尖 部 的 3 个 固定 字段 ，8 位 类 型 、8 位 
代码 和 16 位 校 验 和 。ICMP 重 定向 报 文 的 类 型 值 是 5， 代 码 字 段 有 4 个 可 
选 值 ， 用 来 区 分 不 同 的 重 定向 类 型 。 本 书 仅 讨 论 主机 重 定向 ， 其 代码 
值 为 1。 


ICMP 重 定 回 报 文 的 数据 部 分 人 台 义 很 明确 ， 它 给 接收 方 提供 了 如 下 


两 个 信息 : 


口 引 起 重 定向 的 卫 数 据 报 ( 即 图 2-4 中 的 原始 IP 数 据 报 ) 的 源 端 IP 
地 址 。 


口 应 该 使 用 的 路 由 器 的 IP 地 址 。 


接收 主机 根据 这 两 个 信息 束 可 以 断定 引起 重 定 辣 的 IP 数 据 报应 该 
使 用 哪个 路 由 器 来 转发 ， 并 且 以 此 来 更 新 路 由 表 (通常 是 更 新 路 由 表 
缓冲 ， 而 不 是 直接 更 改 路 由 表 


/proc/sys/net/ipv4/conf/all/send_redirects 内 核 参 数 指 定 是 否 人 允许 发 送 
ICMP 重 定 辣 报 文 ， 而 /proc/sys/net/ipv4/conf/all/accept_redirects 内 核 参 数 
则 指定 是 否 允 许 接收 ICMP 重 定向 报 文 。 一 般 来 说 ， 主 机 只 能 接收 
ICMP 重 定 回报 文 ， 而 路 由 器 只 能 发 送 ICMP 重 定 回报 文 。 


2.6.2 ”主机 重 定 癌 实 例 


2.4.3 世 中 ， 我 们 把 机 器 ernest-laptop 的 网 关 设 置 成 了 机 器 
Kongming20，2.5 节 中 我 们 又 使 能 了 Kongming20 的 数据 报 转发 功能 ， 
此 机 器 ernest-laptop 将 通过 Kongming20 来 访问 因特网 ， 比 如 在 ernest- 
laptop 上 执行 如 下 ping 命 令 : 


$ping www.baidu.com 

PING www.a.shifen.com(119.75.217.56)56(84)bytes of data. 

From Kongming20(192.168.1.109):icmp_seq=1 Redirect Host(New 
nexthop:192.168.1.1) 

64 bytes from 119.75.217.56:icmp_seq=1 ttl=54 time=6.78 ms 

---www.a.shifen.com ping statistics--- 


1 packets transmitted,1 recelived,0%packet loss,time Oms 
rtt min/avg/max/mdev=6.789/6.789/6.789/0.000 ms 


从 ping 命 令 的 输出 来 看 ， ee 
ICMP 重 定向 报 文 ， 告 诉 它 请 通过 192.168.1.1 来 访问 目标 机 器 ， 因 为 这 
对 ernest-laptop 来 说 是 更 合理 的 路 由 方式 。 当 主机 ernest-laptop 收 到 这 样 
的 ICMP 重 定向 报 文 后 ， 它 将 更 新 其 路 由 表 缓 冲 (使 用 命令 route-Cn 查 
看 ) ， 并 使 用 新 的 路 由 方式 来 发 送 后 续 数 据 报 。 上 面 讨论 的 重 定向 过 
程 可 用 图 2-5 来 总 结 。 


(1) IP 数 据 报 1 


(4) 后 续 卫 数据 报 


(2) IP 数 据 报 


六 1 
1 I 
, | 


图 2-5 主机 重 定 同 过 程 


2.7 “JIPv6 头 部 结构 


IPv6 协 议 征 网 络 层 技术 发 展 的 必然 趋 劳 。 它 不 仅 解决 了 IPv4 地 址 不 
够 用 的 问题 ， 还 做 了 很 大 的 改进 。 比 如 ， 增 加 了 多 播 和 流 的 功能 ， 为 
网 络 上 多 媒体 内 容 的 质量 提供 精细 的 控制 ， 引 入 目 动 配置 功能 ， 使 得 
局 域 网 管理 更 方便 ， 增 加 了 专门 的 网 络 安全 功能 等 。 本 市 简要 地 讨论 
IPv6 头 部 结构 ， 它 的 更 多 细节 请 参考 其 标准 文档 RFC 2460 。 


2.7.1 _IPv6 固 定 头 部 结构 
IPv6 头 部 由 40 字 节 的 固定 头 部 和 可 变 长 的 扩展 头 部 组 成 。 图 2-6 所 


示 是 IPv6 的 固定 头 部 结构 。 


0 15 16 3 


4 位 ape eg 


16 位 净 荷 长 度 8 位 下 一 个 包头 8 位 跳 数 限制 


128 位 源 端 卫 地 址 


128 位 目的 端 耻 地 址 


图 2-6 IPv6 固 定 头 部 结构 


4 位 版 本 号 (version) 指定 IP 协 议 的 版 本 。 对 IPv6 来 说 ， 其 值 是 6 。 


8 位 通信 类 型 (traffic class) 指示 数据 流通 信 类 型 或 优先 级 ， 和 
IPv4 中 的 TOS 类 似 。 


20 位 流标 签 (flow label) 是 IPv6 新 增加 的 字段 ， 用 于 某 些 对 连接 
的 服务 质量 有 特殊 有 要求 的 通信 ， 比 如 音频 或 视频 等 实时 数据 传输 。 


16 位 净 荷 长 度 (payload length) 指 的 是 TPv6 扩 展 头 部 和 应 用 程序 数 
据 长 度 之 和 ， 不 包括 固定 头 部 长 度 。 


8 位 下 一 个 包头 next header) 指出 紧 跟 IPv6 固 定 头 部 后 的 包头 类 
型 ， 如 扩展 头 〈 如 果 有 的 话 ) 或 某 个 上 层 协 议 头 (比如 TCP，UDP 或 
ICMP) 。 它 类 似 于 IPv4 头 部 中 的 协议 字段 ， 且 相同 的 取 值 有 相同 的 含 
义 。 


8 位 跳 数 限制 (hop limit) 和 IPv4 中 的 TITL 含 义 相 同 。 


IPv6 用 128 位 (16 字 节 ) 来 表示 IP 地 址 ， 使 得 IP 地 址 的 总 量 达 到 了 
2128 个 。 所 以 有 人 说 ，“IPv6 使 得 地 球 上 的 每 粒 沙子 都 有 一 个 IP 地 址 ”。 


32 位 表示 的 IPv4 地 址 一 般 用 点 分 十 进 制 来 表示 ， 而 IPv6 地 址 则 用 十 
六 进 制 字 符 串 表示 ， 比 
如 “FE80:0000:0000:0000:1234:5678:0000:0012”。 可 见 ，IPv6 地 址 
用 “分 割 成 组， 每 组 包含 2? 字 节 。 但 这 种 表示 方法 过 于 麻烦 ， 通 冰 可 


以 使 用 所 谓 的 零 压缩 法 来 将 其 简写 ， 也 就 是 省 略 连续 的 、 全 零 的 组 。 
比如 ， 上 面 的 例子 使 用 零 压 缩 法 可 表示 

为 "FE80::1234:5678:0000:0012”。 不 过 零 压 缩 法 对 一 个 IPv6 地 址 只 能 使 
用 一 次 ， 比 如 上 面 的 例子 中 ， 字 节 组 “5678” 后 面 的 全 零 组 就 不 能 再 省 
略 ， 否 则 我 们 就 无 法 计算 每 个 “::” 之 间 省 略 了 多 少 个 全 和 零 组 。 


2.7.2 ”IPv6 扩 展 头 部 


可 变 长 的 扩展 头 部 使 得 ITPv6 能 文 持 更 多 的 选项 ， 并 且 很 便于 将 来 
的 扩展 需要 。 它 的 长 度 可 以 是 0， 表 示 数 据 报 没 使 用 任何 扩展 头 部 。 一 
个 数据 报 可 以 包含 多 个 扩展 头 部 ， 每 个 扩展 头 部 的 类 型 由 前 一 个 头 部 

(固定 头 部 或 扩展 头 部 ) 中 的 下 一 个 报头 字段 指定 。 目 前 可 以 使 用 的 
扩展 头 部 如 表 2-3 所 示 。 


表 2-3 1IPv6 扩展 头 部 
党 义 
逐 跳 选 项 头 部 ， 它 包含 每 个 路 由 器 都 必须 检查 和 处 理 的 特殊 参数 选项 
目的 选项 头 部 ， 指 定 由 最 终 目的 节点 处 理 的 选项 
路 由 头 部 ， 指 定数 据 报 要 经 过 哪些 中 转 路 由 器 ， 功 能 类 似 于 IPv4 的 松散 源 


扩展 头 部 
Hop-by-Hop 


Destination options 


路 由 选择 选项 和 记录 路 由 选项 
Fragment 分 片头 部 ， 处 理 分 片 和 重组 的 细节 
Authentication 认证 头 部 ， 提 供 数据 源 认 证 、 数 据 完 整 性 检查 和 反 重 播 保 护 


加 密 头 部 ， 提 供 加 密 服 务 
没有 后 续 扩 展 头 部 


Encapsulating Security Payload 


No next header 


注意 ”IPv6 协 议 并 不 是 IPv4 协 议 的 简单 扩展 ， 而 是 完全 独立 的 协 
议 。 用 以 太 网 帧 封闭 的 IPv6 数 据 报 和 IPv4 数 据 报 具有 不 同 的 类 型 值 。 第 


1 章 提 到 ，IPv4 数 据 报 的 以 太 网 帧 封装 类 型 值 是 0x800， 而 IPv6 数 据 报 的 
以 太 网 帧 封装 类 型 值 是 0x86dd ( 见 RFC 2464) 。 


第 3 章 ” TCP 协议 详解 


TCP 协 议 是 TCP/IP 协 议 族 中 男 一 个 重要 的 协议 。 和 和 IP 协议 相 比 ， 
TCP 协 议 更 靠近 应 用 层 ， 因 此 在 应 用 程序 中 具有 更 强 的 可 操作 性 。 一 些 
重要 的 socket 选 项 都 和 和 TCP 协议 相关 。 


本 章 从 如 下 四 方面 来 讨论 TCP 协 议 : 


DTCP 关 部 信息 。TCP 尖 部 信息 出 现在 每 个 TCP 报 文 段 中 ， 用 于 指 
定 通信 的 源 问 应 口号 、 目 的 站 问 口 号 ， 管 理 TCP 连 接 ， 控 制 两 个 方 同 的 
数据 流 。 


口 TCP 状 态 转移 过 程 。TCP 连 接 的 任意 一 端 都 是 一 个 状态 机 “。 在 
TCP 连 接 从 建立 到 断 开 的 整个 过 程 中 ， 连 接 两 端的 状态 机 将 经 历 不 同 的 
状态 变迁 。 理 解 TCP 状 态 转 移 对 于 调试 网 络 应 用 程序 将 有 很 大 的 帮助 。 


DTCP 数 据 流 。 通 过 分 析 TCP 数 据 流 ， 我 们 避 ® 可 以 从 网 络 应 用 程序 
外 部 来 了 解 应 用 层 协议 和 通信 双方 交换 的 应 用 程序 数据 。 这 一 部 分 将 
讨论 两 种 类 型 的 TCP 数 据 流 ， 交 互 数据 流 和 成 块 数据 流 。TCP 数 据 流 中 
有 一 种 特殊 的 数据 ， 称 为 紧急 数据 ， 我 们 也 将 位 单 讨 论 之 。 


口 TCP 数 据 流 的 控制 。 为 了 保证 可 靠 传 输 和 提高 网 络 通信 质量 ， 内 
核 需 要 对 TCP 数 据 流 进行 控制 。 这 一 部 分 讨论 TCP 数 据 流 控 制 的 两 个 方 


面 : 超时 重 传 和 拥塞 控制 。 


不 过 在 详细 讨论 TCP 协 议 之 前 ， 我 们 先 人 简单 介绍 一 下 TCP 服 务 的 特 
点 ， 以 及 它 和 UDP 服 务 的 区 别 。 


3.1 ”TCP 服务 的 特点 


传输 层 协议 主要 有 两 个 :TCP 协议 和 UDP 协 议 。TCP 协 议 相 对 于 
UDP 协议 的 等 点 是: 面 同 连接 、 子 太 流 和 可 徘 传 输 。 


使 用 TCP 协 议 通 信 的 双方 必须 先 建立 连接 ， 然 后 才能 开始 数据 的 读 
写 。 双 方 都 必须 为 该 连接 分 配 必要 的 内 核 唤 产 ， 以 管理 连接 的 状态 和 
连接 上 数据 的 传输 。TCP 连 接 是 全 双 工 的 ， 即 双方 的 数据 读 写 可 以 通过 
一 个 连接 进行 。 完 成 数据 交换 之 后 ， 通 信 双 方 都 必须 断 开 连接 以 释放 


TCP 协 议 的 这 种 连接 是 一 对 一 的 ， 所 以 基于 广播 和 多 播 (目标 是 多 
个 主机 地 址 ) 的 应 用 程序 不 能 使 用 TCP 服 务 。 而 无 连接 协议 UDP 则 非常 
适合 于 广播 和 多 播 。 


我 们 在 1.1 市 中 简单 介绍 过 字 节 流 服务 和 数据 报 服 务 的 区 别 。 这 种 
区 别 对 应 到 实际 编程 中 ， 则 体现 为 通信 双方 是 否 必须 执行 相同 次 数 的 
读 、 写 操作 〈 当 然 ， 这 只 是 表现 形式 ) 。 当 发 送 端 应 用 程序 连续 执行 
多 次 写 操作 时 ，TCP 模 块 先 将 这 些 数 据 放 入 TCP 发 送 缓 冲 区 中 。 当 TCP 


模块 真正 开始 发 送 数据 时 ， 发 送 缓冲 区 中 这 些 等 待 发 送 的 数据 可 能 被 
封 关 成 一 个 或 多 个 TCP 报 文 段 发 出 。 因 此 ，TCP 模 块 发 送出 的 TCP 报 文 
段 的 个 数 和 应 用 程序 执行 的 写 操作 次 数 之 间 没 有 固定 的 数量 关系 。 


当 接收 闯 收 到 一 个 或 多 个 TCP 报 文 段 后 ，TCP 模 块 将 它们 携 市 的 应 
用 程序 数据 按照 TCP 报 文 段 的 序号 〈 见 后 文 ) 依次 放 入 TCP 接 收 缓冲 区 
中 ， 并 通知 应 用 程序 读 取 数 据 。 接 收 端 应 用 程序 可 以 一 次 性 将 TCP 接 收 
缓冲 区 中 的 数据 全 部 读 出 ， 也 可 以 分 多 次 读 取 ， 这 取决 于 用 户 指定 的 
应 用 程序 读 缓冲 区 的 大 小 。 因 此 ， 应 用 程序 执行 的 读 操 作 次 数 和 TCP 模 
块 接收 到 的 TCP 报 文 段 个 数 之 间 也 没有 固定 的 数量 关系。 


综 上 所 述 ， 发 送 端 执 行 的 写 操作 次 数 和 接收 端 执 行 的 读 操 作 次 数 
之 间 没 有 任何 数量 关系 ， 这 吏 是 字 节 流 的 概念 : 应 用 程序 对 数据 的 发 
送 和 接收 是 没有 边界 限制 的 。 UDP 则 不 然 。 发 送 端 应 用 程序 每 执行 一 
次 写 操 作 ，UDP 模 块 丈 将 其 封 表 成 一 个 UDP 数据 报 并 发 送 之 。 接 收 闪 
必须 及 时 针对 每 一 个 UDP 数据 报 执行 读 操 作 〈 通 过 recvfrom 系 统 调 
用 ) ， 和 否则 就 会 丢 包 〈 这 经 常 发 生 在 较 慢 的 服务 器 上 ) 。 并 且 ， 如 果 
用 户 没有 指定 足够 的 应 用 程序 缓冲 区 来 读 取 UDP 数据 ， 则 UDP 数据 将 


图 3-1 和 图 3-2 显 示 了 TCP 字 节 流 服务 和 UDP 数据 报 服务 的 上 述 区 
别 。 两 图 中 省 略 了 传输 层 以 下 的 通信 细节 。 


0] Ca] DC] | 


TCP 发 送 缓 神 区 TCP 接 收 缓冲 区 
传输 层 
TCP 报 文 段 TCP 报 文 段 TCP 报 文 段 TCP 报 文 段 


图 3-1 TCP 字 节 流 服务 


发 送 端 接收 端 
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UDP 数据 报 UDP 数据 报 UDP 数据 报 UDP 数据 报 


图 3-2 UDP 数据 报 服务 


TCP 传 输 是 可 靠 的 。 首 先 ，TCP 协 议 采 用 发 送 应 答 机 制 ， 即 发 送 端 
发 送 的 每 个 TCP 报 文 段 都 必须 得 到 接收 方 的 应 答 ， 才 认为 这 个 TCP 报 文 
段 传输 成 功 。 其 次 ，TCP 协 议 采 用 超时 重 传 机 制 ， 发 送 端 在 发 送出 一 个 
TCP 报 文 段 之 后 局 动 定 时 器 ， 如 果 在 定时 时 间 内 未 收 到 应 答 ， 它 将 重 发 
该 报 文 段 。 最 后 ， 因 为 TCP 报 文 段 最 终 是 以 卫 数 据 报 发 送 的 ， 而 卫 数 据 
报到 达 接 收 端 可 能 乱 序 、 重 复 ， 所 以 TCP 协 议 还 会 对 接收 到 的 TCP 报 文 
段 重 排 、 整 理 ， 再 交付 给 应 用 层 。 


UDP 协 议 则 和 了 P 协 议 一 样 ， 提 供 不 可 徘 服 务 。 它 们 都 需要 上 层 协 
议 来 处 理 数据 确认 和 超时 重 传 。 


3.2 ”TCP 头 部 结构 


TCP 头 部 信息 出 现在 每 个 TCP 报 文 段 中 ， 用 于 指定 通信 的 源 端 妆 
口 ， 目 的 端 端口 ， 管 理 TCP 连 接 等 ， 本 节 详 细 介 绍 TCP 的 头 部 结构 ， 包 
括 固 定 头 部 结构 和 头 部 选项 。 


321 TCP 加 十 头 部 结构 


TCP 尖 部 结构 如 图 3-3 所 示 ， 其 中 的 诸多 字段 为 管理 TCP 连 接 和 挥 
制 数 据 流 提供 了 足够 的 信息 。 


0 15 16 31 
16 位 源 端 口号 16 位 目的 端口 号 
32 位 序号 
32 位 确认 号 
本 6 位 保留 RlclslslYli 立 窗口 大 小 
头 部 长 度 GIKIH|ITININ 
16 位 校 验 和 16 位 紧急 指针 

| 


选项 ， 最 多 40 字 节 
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图 。3-3 ”TCP 头 部 结构 


16 位 端口 号 (port number) : 告知 主机 该 报 文 段 是 来 自 哪 里 ( 源 
端口 ) 以 及 传 给 哪个 上 层 协议 或 应 用 程序 (目的 端口 ) 的 。 进 行 TCP 通 


信和 有 时， 客户 端 通常 使 用 系统 自动 选择 的 临时 端口 号 ， 而 服务 器 则 使 用 
知名 服务 端口 号 。1.3 世 中 提 到 过 ， 所 有 知名 服务 使 用 的 端口 号 都 定义 
在 /etc/services 文 件 中 。 


32 位 序号 (sequence number) : 一 次 TCP 通 信 〈 从 TCP 连 接 建立 到 
断 开 ) 过 程 中 某 一 个 传输 方向 上 的 字 节 流 的 每 个 字 市 的 编号 。 假 设 主 
机 A 和 主机 B 进 行 TCP 通 信 ，A 发 送 给 B 的 第 一 个 TCP 报 文 段 中 ， 序 号 值 
被 系统 初始 化 为 某 个 随机 值 ISN (Initial Sequence Number， 初 始 序 号 
值 ) 。 那 么 在 该 传输 方向 上 (从 A 到 B) ， 后 续 的 TCP 报 文 段 中 序号 值 
将 被 系统 设置 成 ISN 加 上 该 报 文 段 所 携带 数据 的 第 一 个 字 忆 在 整个 字 站 
流 中 的 俩 移 。 例 如 ， 某 个 TCP 报 文 段 传送 的 数据 是 字 万 流 中 的 第 1025~ 
2048 字 广 ， 那 么 该 报 文 段 的 序号 值 就 是 ISN+1025。 男 外 一 个 传输 方向 

(从 B 到 A) 的 TCP 报 文 段 的 序号 值 也 具有 相同 的 舍 义 。 


32 位 确认 号 (acknowledgement number) : 用 作对 另 一 方 发 送 来 的 
TCP 报 文 段 的 啊 应 。 其 值 是 收 到 的 TCP 报 文 段 的 序号 值 加 1。 假 设 主机 
A 和 主机 B 进 行 TCP 通 信 ， 那 么 A 发 送出 的 TCP 报 文 段 不 仅 携带 自己 的 序 
号 ， 而 且 包含 对 B 发 送 来 的 TCP 报 文 段 的 确认 号 。 反 之 ，B 发 送出 的 
TCP 报 文 段 也 同时 携带 自己 的 序号 和 对 A 发 送 来 的 报 文 段 的 确认 号 。 


4 位 头 部 长 度 (header length) : 标识 该 TCP 头 部 有 多 少 个 32bit 字 
(4 字 节 ) 。 因 为 4 位 最 大 能 表示 15， 所 以 TCP 头 部 最 长 是 60 字 节 。 


6 位 标志 位 包含 如 下 几 项 : 
DURG 标 志 ， 表 示 紧 急 指 针 (urgent pointer) 是 否 有 效 。 


口 ACK 标 志 ， 和 均 示 确认 号 是 否 有 效 。 我 们 称 携 市 ACK 标 志 的 TCP 
报 文 段 为 确认 报 文 段 。 


DPSH 标 志 ， 提 示 接 收 端 应 用 程序 应 该 立即 从 TCP 接 收 缓冲 区 中 读 
走 数据 ， 为 接收 后 续 数 据 腾 出 空间 (如 有 果 应 用 程序 不 将 接收 到 的 数据 
读 走 ， 它 们 就 会 一 直 停 留 在 TCP 接 收 缓冲 区 中 ) 。 


口 RST 标 志 ， 表 示 要 求 对 方 重 新 建立 连接 。 我 们 称 携 带 RST 标 志 的 
TCP 报 文 段 为 复位 报 文 段 。 


DSYN 标 志 ， 表 示 请 求 建立 一 个 连接 。 我 们 称 携带 SYN 标 志 的 TCP 
报 文 段 为 同步 报 文 段 。 


DFIN 标 志 ， 表 示 通 知 对 方 本 端 要 关闭 连接 了 。 我 们 称 携 市 FIN 标 
志 的 TCP 报 文 段 为 结束 报 文 段 。 


16 位 窗口 大 小 (window size) : 是 TCP 流 量 控 制 的 一 个 手段 。 这 里 
说 的 窗口 ， 指 的 是 接收 通告 窗口 (Receiver Window，RWND) 。 它 告 
诉 对 方 本 端的 TCP 接 收 缓冲 区 还 能 容纳 多 少 字 节 的 数据 ， 这 样 对 方 就 可 
以 控制 发 送 数据 的 速度 。 


16 位 校 验 和 (TCP checksum) : 由 发 送 端 填充 ， 接 收 端 对 TCP 报 
文 段 执行 CRC 算 法 以 检验 TCP 报 文 段 在 传输 过 程 中 是 否 损坏 。 注 意 ， 这 
个 校 验 不 仅 包 括 TCP 头 部 ， 也 包括 数据 部 分 。 这 也 是 TCP 可 靠 传输 的 一 
个 重要 保障 。 


16 位 紧急 指针 (urgent pointer) : 是 一 个 正 的 偏 移 量 。 它 和 序号 字 
段 的 值 相 加 表示 最 后 一 个 紧急 数据 的 下 一 字 市 的 序号 。 因 此 ， 确 切 地 
说 ， 这 个 字段 是 紧急 指针 相对 当前 序号 的 偏 移 ， 不 妨 称 之 为 紧急 偏 
移 。TCP 的 紧急 指针 是 发 送 端 疝 接 收 端 发 送 紧 急 数 据 的 方法 。 我 们 将 在 
后 面 讨 论 TCP 紧 急 数 据 。 


3522 TGP 头 部 选项 
TCP 头 部 的 最 后 一 个 选项 字段 (options) 是 可 变 长 的 可 选 信息 。 这 


最 口 
部 分 最 多 包含 40 字 节 ， 因 为 TCP 头 部 最 长 是 60 字 节 (其 中 还 包含 前 面 讨 
论 的 20 字 节 的 固定 部 分 ) 。 暴 型 的 TCP 头 部 选项 结构 如 图 3-4 所 示 。 


kind 〈1 字 节 ) | length (1 字 节 ) info 〈7 字 节 ) 


图 3-4 _ TCP 头 部 选项 的 一 般 结构 


选项 的 第 一 个 字段 kind 说 明 选 项 的 类 型 。 有 的 TCP 选 项 没有 后 面 两 
个 字段 ， 仅 包含 1 字 节 的 kind 字 段 。 第 二 个 字段 length (如 采 有 的 话 ) 指 


定 该 选项 的 总 长 度 ， 该 长 度 包 括 kind 字 段 和 length 字 段 占 据 的 2 字 节 。 第 
三 个 字段 info (如 果 有 的 话 ) 是 选项 的 具体 信息 。 和 常见 的 TCP 选 项 有 7 
种 ， 如 图 3-5 所 示 。 


kind=0 


length=4 最 大 segment 长 度 (2 字 节 ) 


kind=5 length 第 1 块 第 1 块 第 N 块 第 N 块 
=N*8+2 ”| 左边 沿 | 右边 沿 | “ | 左边 沾 | 右边 沿 


时 间 戳 值 4 字 节 ) 时 间 戳 回 显 应 答 〈4 字 节 ) 


图 3-5 7 种 TCP 选 项 
kind=0 是 选项 表 结 束 选 项 。 


kind=1 是 空 操作 (nop) 选项 ， 没 有 特殊 含义 ， 一般 用 于 将 TCP 选 
项 的 总 长 度 填 充 为 4 字 节 的 整数 倍 。 


kind=2 是 最 大 报 文 段 长 度 选 项 。TCP 连 接 初始 化 时 ， 通 信 双 方 使 用 
该 选项 来 协商 最 大 报 文 段 长 度 (Max Segment Size，MSS) 。TCP 模 块 
通常 将 MSS 设 置 为 《MTU-40) 字 节 ( 减 掉 的 这 40 字 节 包 括 20 字 市 的 
TCP 头 部 和 20 字 节 的 IP 头 部 ) 。 这 样 携带 TCP 报 文 段 的 IP 数 据 报 的 长 度 


就 不 会 超过 MTU 〈 假 设 TCP 头 部 和 卫 头 部 都 不 包含 选项 字段 ， 并 且 这 
也 是 一 般 情 况 ) ， 从 而 避免 本 机 发 生 IP 分 片 。 对 以 太 网 而 言 ，MSS 值 
是 1460 (1500-40) 字 节 。 


kind=3 是 窗口 扩大 因子 选项 。TCP 连 接 初 始 化 时 ， 通 信 双 方 使 用 该 
选项 来 协商 接收 通告 窗口 的 扩大 因 了 于 。 在 TCP 的 头 部 中 ， 接 收 通告 窗口 
大 小 是 用 16 位 表示 的 ， 故 最 大 为 65 535 字 节 ， 但 实际 上 TCP 模 块 允 许 的 
接收 通告 窗口 大 小 远 不 止 这 个 数 (为 了 提高 TCP 通 信 的 吞吐 量 ) 。 窗口 
扩大 因子 解决 了 这 个 问题 。 假 设 TCP 头 部 中 的 接收 通告 窗口 大 小 是 N， 
窗口 扩大 因子 ( 移 位 数 ) 是 M， 那 么 TCP 报 文 段 的 实际 接收 通告 窗口 大 
小 是 N 乘 2M ， 或 者 说 N 左 移 M 位 。 注 意 ，M 的 取 值 范 围 是 0 一 14。 我 们 
可 以 通过 修改 /proc/sysmetipv4/tcp_window_scaling 内 核 变 量 来 启用 或 关 
闭 窗 口 扩大 因子 选项 。 


和 MSS 选 项 一 样 ， 窗 口 扩 大 因子 选项 只 能 出 现在 同步 报 文 段 中 ， 
否则 将 被 忽略 。 但 同步 报 文 段 本 身 不 执行 窗口 扩大 操作 ， 即 同步 报 文 
段 头 部 的 接收 通告 窗口 大 小 就 是 该 TCP 报 文 段 的 实际 接收 通告 窗口 大 
小 。 当 连接 建立 好 之 后 ， 每 个 数据 传输 方向 的 窗口 扩大 因子 就 固定 不 
变 了 。 关 于 窗口 扩大 因子 选项 的 细节 ， 可 参考 标准 文档 RFC 1323。 


kind=4 是 选择 性 确认 (Selective Acknowledgment，SACK) 选项 。 
TCP 通 信 时 ， 如 果 某 个 TCP 报 文 段 丢 失 ， 则 TCP 模 块 会 重 传 最 后 被 确认 
的 TCP 报 文 段 后 续 的 所 有 报 文 段 ， 这 样 原 先 已 经 正确 传输 的 TCP 报 文 段 


也 可 能 重复 发 送 ， 从 而 降低 了 TCP 性 能 。SACK 技 术 正 是 为 改善 这 种 情 
况 而 产生 的 ， 它 使 TCP 模 块 只 重新 发 送 丢 失 的 TCP 报 文 段 ， 不 用 发 送 所 
有 未 被 确认 的 TCP 报 文 段 。 选 择 性 确认 选项 用 在 连接 初始 化 时 ， 表 示 是 
否 文 持 SACK 技 术 。 我 们 可 以 通过 修改 /proc/sys/neUipv4/tcp_sack 内 核 变 
量 来 启用 或 关闭 选择 性 确认 选项 。 


kind=5 是 SACK 实 际 工 作 的 选项 。 该 选项 的 参数 告诉 发 送 方 本 端 已 

经 收 到 并 缓存 的 不 连续 的 数据 块 ， 从 而 让 发 送 端 可 以 据 此 检查 并 重 发 
丢失 的 数据 块 。 每 个 块 边沿 (edge of block) 参数 包含 一 个 4 字 节 的 序 
号 。 其 中 块 左 边沿 表示 不 连续 块 的 第 一 个 数据 的 序号 ， 而 块 右 边沿 则 
表示 不 连续 块 的 最 后 一 个 数据 的 序号 的 下 一 个 序号 。 这 样 一 对 参数 

( 块 左边 沿 和 块 右边 沿 ) 之 间 的 数据 是 没有 收 到 的 。 因 为 一 个 块 信息 
占用 8 字 节 ， 所 以 TCP 头 部 选项 中 实际 上 最 多 可 以 包含 4 个 这 样 的 不 连续 
数据 块 “考虑 选项 类 型 和 长 度 占 用 的 2 字 节 ) 。 


kind=8 是 时 间 惟 选项 。 该 选项 提供 了 较为 准确 的 计算 通信 双方 之 间 
的 回路 时 间 (Round Trip Time，RTT) 的 方法 ， 从 而 为 TCP 流 量 控制 提 
供 重 要 信息 。 我 们 可 以 通过 修改 /proc/sys/net/ipv4/tcp_timestamps 内 核 变 
量 来 启用 或 关闭 时 间 惟 选项 。 


3.2.3 ”使 用 tcpdump 观 察 TCP 头 部 信息 


在 2.3 中 ， 我 们 利用 tcpdump 抓 取 了 一 个 数据 包 并 分 析 了 其 中 的 了 
头 部 信息 ， 本 闻 分 析 其 中 与 TCP 协 议 相 关 的 部 分 (后 面 的 分 析 中 ， 我 们 
将 所 有 tcpdump 抓 取 到 的 数据 包 都 称 为 TCP 报 文 段 ， 因 为 TCP 报 文 段 既 
是 数据 包 的 主要 内 容 ， 也 是 我 们 主要 讨论 的 对 象 ) 。 为 了 方便 阅读 ， 
先 将 该 TCP 报 文 段 的 内 容 复制 于 代码 清单 3-1 中 。 


代码 清单 3-1 用 tcpdump 抓 取 数据 包 


IP 127.0.0.1.41621>127.0.0.1.23:Flags[S],seq 3499745539, win 
32792, options[mss 16396, sackOK,TS val 40781017 ecr 0,nop,wscale 
6],1length 0 

OxO0000:4510 003c a5da 4000 4006 96cf 7f00 0001 

0Xx0010 :7f00 0001 a295 0017 d099 e103 0000 0000 

Ox0020:a002 8018 fe30 0000 0204 400c 0402 080a 

Ox0030:026e 44d9 0000 0000 0103 0306 


tcpdump 输 出 Flags[S]， 表 示 该 TCP 报 文 段 包 含 SYN 标 志 ， 因 此 它 是 
一 个 同步 报 文 段 。 如 果 TCP 报 文 段 包 含 其 他 标志 ， 则 tcpdump 也 会 将 该 
标志 的 首 字 母 显 示 在 “Flags” 后 的 方 括号 中 。 


seq 是 序号 值 。 因 为 该 同步 报 文 段 是 从 127.0.0.1.41621 〈 客 户 端 IP 地 
址 和 端口 号 ) 到 127.0.0.1.23 (服务 器 IP 地 址 和 端口 号 ) 这 个 传输 方向 
上 的 第 一 个 TCP 报 文 段 ， 所 以 这 个 序号 值 也 就 是 此 次 通信 过 程 中 该 传输 
方向 的 ISN 值 。 并 且 ， 因 为 这 是 整个 通信 过 程 中 的 第 一 个 TCP 报 文 段 ， 
所 以 它 没有 针对 对 方 发 送 来 的 TCP 报 文 段 的 确认 值 (尚未 收 到 任何 对 方 
发 送 来 的 TCP 报 文 段 ) 


win 是 接收 通告 窗口 的 大 小 。 因 为 这 是 一 个 同步 报 文 段 ， 所 以 win 
值 反 映 的 是 实际 的 接收 通告 窗口 大 小 。 


options 是 TCP 选 项 ， 其 具体 内 容 列 在 方 括号 中 。mss 是 发 送 端 ( 客 
户 端 ) 通告 的 最 大 报 文 段 长 度 。 通 过 ifconfig 命 令 查 看 回路 接口 的 MTU 
为 16436 字 节 ， 因 此 可 以 预想 到 TCP 报 文 段 的 MSS 为 16396 (16436-40) 
字 节 。sackOK 表 示 发 送 端 文 持 并 同意 使 用 SACK 选 项 。TS val 是 发 送 端 
的 时 间 戳 。ecr 是 时 间 戳 回 显 应 答 。 因 为 这 是 一 次 TCP 通 信 的 第 一 个 
TCP 报 文 段 ， 所 以 它 针 对 对 方 的 时 间 戳 的 应 答 为 0 〈 尚 未 收 到 对 方 的 时 
间 惟 ) 。 紧 接着 的 nop 是 一 个 空 操 作 选 项 。wscale 指 出 发 送 端 使 用 的 窗 
口 扩大 因子 为 6。 


接 下 来 我 们 分 析 tcpdump 输 出 的 字 节 码 中 TCP 头 部 对 应 的 信息 ， 它 
从 第 21 字 三 开始 ， 如 表 3-1 所 示 。 


表 3-1 TCP 头 部 


六 进 制 数 TCP 头 部 信息 
0xa295 源 端口 号 
0x0017 目的 端口 号 
0xd099e103 序号 
0x00000000 | 0 | 确认 号 
0xa 10 TCP 头 部 长 度 为 10 个 32 位 〈40 字 节 ) 
0x002 设置 了 SYN 标志 
0x8018 32792 接收 通告 窗口 大 小 
0xfe30 头 部 校 验 和 
0x0000 没 设置 URG 标志 ， 所 以 紧急 指针 值 无 意义 
0x0204 最 大 报 文 段 长 度 选 项 的 kind 值 和 length 值 


0x400c 16396 最 大 报 文 段 长 度 


0x0402 人 允许 SACK 选项 

0x080a 时 间 截 选项 的 kind 值 和 length 值 
0x026e44d9 40781017 时 间 戳 

0x00000000 回 显 应 答 时 间 蕉 

0x01 空 操作 选项 

0x0303 窗口 扩大 因子 选项 的 kind 值 和 length 值 
0x06 窗口 扩大 因子 为 6 


从 表 3-1 中 可 见 ，TCP 报 文 段 头 部 的 二 进 制 码 和 tcpdump 输 出 的 TCP 
报 文 段 描述 信息 完全 对 应 。 在 后 面 的 tcpdump 输 出 中 ， 我 们 将 省 略 大 部 
分 TCP 头 部 信息 ， 仅 显示 序号 、 确 认 号 、 窗 口 大 小 以 及 标志 位 等 与 主题 
相关 的 字段 。 


ay 


[1] 此 列 中 的 空格 表示 我 们 并 不 关心 相应 字段 的 十 进 制 值 。 


3.3 TCP 连接 的 建立 和 天 闭 
本 广 我 们 讨论 建立 和 关闭 TCP 连 接 的 过 程 。 
3.3.1 ”使 用 tcpdump 观 察 TCP 连 接 的 建立 和 关闭 


首先 从 ernest-laptop 上 执行 telnet 命 令 登 录 Kongming20 的 80 端 口 ， 然 
后 抓 取 这 一 过 程 中 客户 端 和 服务 需 交 换 的 TCP 报 文 段 。 具 体操 作 过 程 如 
下 : 


$sudo tcpdump-i etho-nt'(src 192.168.1.109 and dst 
192.168.1.108)or(src 192.168.1.108 and dst 192.168.1.109)' 

$telnet 192.168.1.109 80 

Trying 192.168.1.109... 

Connected to 192.168.1.109. 

Escape character is'^]'. 

^] ( 回 车 ) # 输 入 ctrl+] 并 回 车 

telnet>>quit 〈 回 车 ) 

Connection closed. 


当 执行 telnet 命 令 并 在 两 台 通 信 主 机 之 间 建 立 TCP 连 接 后 (telnet 输 
出 “Connected to 192.168.1.109”) ， 输 入 Ctrl+] 以 调 出 telnet 程 序 的 命令 提 
示 符 ， 然 后 在 telnet 命 令 提 示 符 后 输入 quit 以 退出 telnet 客 户 端 程序 ， 从 


而 结束 TCP 连 接 。 整 个 过 程 中 (从 连接 建立 到 结束 ) ，tcpdump 输 出 的 
内 容 如 代码 清单 3-2 所 示 。 


代码 清单 3-2 ”建立 和 关闭 TCP 连 接 的 过 程 


1.IP 192.168.1.108.60871>192.168.1.109.80 
535734930,win 5840, length 0 

2.IP 192.168.1.109.80~>192.168.1.108.60871 
2159701207,ack 535734931,win 5792,1length 0 

3.IP 192.168.1.108.60871>192.168.1.109.80 
92, length 0 

4.IP 192.168.1.108.60871>192.168.1.109.80 
1,win 92,1length 0 

5.IP 192.168.1.109.80~>192.168.1.108.60871 
91, length 0 

6.IP 192.168.1.109.80~>192.168.1.108.60871 
2,win 91,1length 0 

7.IP 192.168.1.108.60871>192.168.1.109.80 
92, length 0 


:Flags[S],seq 
:Flags[S.],sedq 
:Flags[.],ack 1,win 
:Flags[F.],seq 1,ack 
:Flags[.],ack 2,win 
:Flags[F.],seq 1,ack 


:Flags[.],ack 2,win 


因为 整个 过 程 并 没有 发 生 应 用 层 数 据 的 交换 ， 所 以 TCP 报 文 段 的 数 
据 部 分 的 长 度 (length) 总 是 0。 为 了 更 清楚 地 表示 建立 和 关闭 TCP 连 接 
的 整个 过 程 ， 我 们 将 tcpdump 输 出 的 内 容 绘制 成 图 3-6 所 示 的 时 序 图 。 


ernest-laptop Kongming20 


(192.168.1.108.60871 ) (192.168.1.109.80 ) 
报 文 段 1 Seq 535734930 (SYN) 
seq 2159701207 (SYN) 报 文 段 2 
ack 535734931 
报 文 段 3 ack 2159701208 
Seq 人 
报 文 段 4 q 335734931，ack 2159701208 (FIN) 
报 文 段 5 
k 535734932 (FIN) 报 文 段 6 
seq 2159701208, ac 


报 文 段 7 ack 2159701209 


图 3-6 ITCP 连 接 的 建立 和 关闭 时 序 图 


第 1 个 TCP 报 文 段 包含 SYN 标 志 ， 因 此 它 是 一 个 同步 报 文 段 ， 即 
ernest-laptop (客户 端 ) 向 Kongming20 (服务 器 ) 发 起 连接 请 求 。 同 
时 ， 该 同步 报 文 段 包含 一 个 ISN 值 为 535734930 的 序号 。 第 2 个 TCP 报 文 
段 也 是 同步 报 文 段 ， 表 示 Kongming20 同 意 与 ernest-laptop 建 立 连 接 。 同 
时 它 发 送 自己 的 ISN 值 为 2159701207 的 序号 ， 并 对 第 1 个 同步 报 文 段 进 
行 确认 。 确 认 值 是 535734931， 即 第 1 个 同步 报 文 段 的 序号 值 加 1。 前 文 
说 过 ， 序 号 值 是 用 来 标识 TCP 数 据 流 中 的 每 一 字 世 的 。 但 同步 报 文 段 比 
较 特 殊 ， 即 使 它 并 没有 携带 任何 应 用 程序 数据 ， 它 也 要 占用 一 个 序号 


值 。 第 3 个 TCP 报 文 段 是 ernest-laptop 对 第 2 个 同步 报 文 段 的 确认 。 至 
此 ，TCP 连 接 就 建立 起 来 了 。 建 立 TCP 连 接 的 这 3 个 步骤 被 称 为 TCP 三 
次 握手 。 


从 第 3 个 TCP 报 文 段 开始 ，tcpdump 输 出 的 序号 值 和 确认 值 都 是 相对 
初始 ISN 值 的 俩 移 。 当 然 ， 我 们 可 以 开局 tepdump 的 -S 选 项 来 选择 打印 
序号 的 绝对 值 。 


后 面 4 个 TCP 报 文 段 是 关闭 连接 的 过 程 。 第 4 个 TCP 报 文 段 包含 FIN 
标志 ， 因 此 它 是 一 个 结束 报 文 段 ， 即 ernest-laptop 要 求 关闭 连接 。 结 
报 文 段 和 同步 报 文 段 一 样 ， 也 要 占用 一 个 序号 值 。Kongming20 用 TCP 
报 文 段 5 来 确认 该 结束 报 文 段 。 紧 接着 Kongming20 发 送 上 自己 的 结束 报 文 
段 6，ernest-laptop 则 用 TCP 报 文 段 7 给 予 确 认 。 实 际 上 ， 仅 用 于 确认 目 
的 的 确认 报 文 段 5 是 可 以 省 略 的 ， 因 为 结束 报 文 段 6 也 携 帝 了 该 确认 信 
忆 。 确 认 报 文 段 5 是 否 出 现在 连接 断 开 的 过 程 中 ， 取 决 于 TCP 的 延迟 确 
认 特 性 。 延 迟 确认 将 在 后 面 讨论 。 


在 连接 的 关闭 过 程 中 ， 因 为 ernest-laptop 先 发 送 结 束 报 文 段 (telnet 
客户 端 程序 主动 退出 ) ， 故 称 ernest-laptop 执 行 主 动 关 闭 ， 而 称 
Kongming20 执 行 被 动 关闭 。 


一 般 而 言 ，TCP 连 接 是 由 客户 端 发 起 ， 并 通过 三 次 握手 建立 (特殊 
情况 是 所 谓 同 时 打开 出 ) 的 。TCP 连 接 的 关闭 过 程 相对 复杂 一 些 。 可 


能 是 客户 端 执行 主动 关闭 ， 比 如 前 面 的 例子 ， 也 可 能 是 服务 器 执行 主 
动 关 闭 ， 比 如 服务 器 程序 被 中 断 而 强制 关闭 连接 ; 还 可 能 是 同时 关闭 
(和 同时 打开 一 样 ， 非 常 少见 ) 。 


3.3.2” 半 关闭 状态 


TCP 连 接 是 全 双 工 的 ， 所 以 它 允 许 两 个 方向 的 数据 传输 被 独立 关 
闭 。 换 言 之 ， 通 信 的 一 端 可 以 发 送 结束 报 文 段 给 对 方 ， 告 诉 它 本 端 已 
经 完成 了 数据 的 发 送 ， 但 允许 继续 接收 来 自 对 方 的 数据 ， 直 到 对 方 也 
发 送 结束 报 文 段 以 关闭 连接 。TCP 连 接 的 这 种 状态 称 为 半 关 闭 (half 
close) 状态 ， 如 图 3-7 所 示 。 


客户 端 服务 器 


客户 端 执 
行 半 关 闭 
read 返 回 0 
N 的 确认 
进入 半 a 
write 
read 返 回 >0 
据 的 确认 
服务 需 
read 返 回 0 关闭 连接 


FIN 的 确认 


图 3-7 半天 闭 状态 


请 注意 ， 在 图 3-7 中 ， 服 务 右 和 客户 端 应 用 程序 判断 对 方 是 否 已 经 
关闭 连接 的 方法 是 : read 系 统 调 用 返回 0 〈 收 到 结束 报 文 段 ) 。 当 然 ， 
Linux 还 提供 其 他 检测 连接 是 否 被 对 方 关闭 的 方法 ， 这 将 在 后 续 章 世 讨 


论 。 

socket 网 络 编程 接口 通过 shutdown 函 数 提 供 了 对 半 关 闭 的 文 持 ， 我 
们 将 在 后 续 章节 讨论 它 。 这 里 强调 一 下 ， 虽 然 我 们 介绍 了 半 关 闭 状 
态 ， 但 是 使 用 半 关 闭 的 应 用 程序 很 少见 。 


3.3.3 ”连接 超时 


前 面 我 们 讨论 的 是 很 快 建立 连接 的 情况 。 如 果 客 户 问 访问 一 个 距 
离 它 很 远 的 服务 器 ， 或 者 由 于 网 络 繁 性 ， 导 致 服务 器 对 于 客户 端 发 送 
出 的 同步 报 文 段 没 有 应 答 ， 此 时 客户 端 程序 将 产生 什么 样 的 行为 呢 ? 
显然 ， 对 于 提供 可 靠 服 务 的 TCP 来 说 ， 它 必然 是 先进 行 重 连 (可 能 执行 
多 次 ) ， 如 有 果 重 连 仍然 无 效 ， 则 通知 应 用 程序 连接 超时 。 


为 了 观察 连接 超时 ， 我 们 模拟 一 个 繁忙 的 服务 右 环 境 ， 在 ernest- 
laptop 上 执行 下 面 的 操作 : 


$sudo iptables-F 
$sudo iptables-I INPUT-p tcp--syn-i etho0-j DROP 


iptable 命 令 用 于 过 滤 数 据 包 ， 这 里 我 们 利用 它 来 丢弃 所 有 接收 到 的 
连接 请 求 (丢弃 所 有 同步 报 文 段 ， 这 样 客 户 端 束 无 法 得 到 任何 确认 报 
XR 


接 下 来 从 Kongming20 上 执行 telnet 命 令 登 录 到 ernest-laptop， 并 用 
tcpdump 抓 取 这 个 过 程 中 双方 交换 的 TCP 报 文 段 。 具 体操 作 如 下 : 


$sudo tcpdump-n-i eth9 port 23# 仅 抓 取 telnet 客 户 端 和 服务 器 交换 的 数据 包 

$date;telnet 192.168.1.108;date# 在 telnet 命 令 前 后 都 执行 date 命 令 ， 以 计 
算 超时 时 间 

Mon Jun 11 21:23:35 CST 2012 

Trying 192.168.1.108... 

telnet:connect to address 192.168.1.108:Connection timed out 

Mon Jun 11 21:24:38 CST 2012 


从 两 次 date 命 令 的 输出 来 看 ，Kongming20 建 立 TCP 连 接 的 超时 时 间 
是 63s。 本 次 tcpdump 的 输出 如 代码 清单 3-3 所 示 。 


代码 清单 3-3 ”TCP 超时 重 连 


1.21:23:35.612136 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 
2.21:23:36.613146 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 
3.21:23:38.617279 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 
4.21:23:42.625140 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 
5.21:23:50.641344 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 
6.21:24:06.673331 IP 192.168.1.109.39385> 
192.168.1.108.telnet:Flags[S],seq 1355982096, length 0 


这 次 抓 包 我 们 保留 了 tcpdump 输 出 的 时 间 戳 〈 不 使 用 其 -t 选 项) ， 
以 便 推 理 Linux 的 超时 重 连 策略 。 


我 们 一 共 抓 取 到 6 个 TCP 报 文 段 ， 它 们 都 是 同步 报 文 段 ， 并 且 具 有 
相同 的 序号 值 ， 这 说 明 后 面 5 个 同步 报 文 段 都 是 超时 重 连 报 文 段 。 观 察 
这 些 TCP 报 文 段 被 发 送 的 时 间 间 隔 ， 它 们 分 别 为 1s、2s、4s、8s 和 16s 
(由 于 定时 器 精度 的 问题 ， 这 些 时 间 间 隅 都 有 一 定 偏差 ) ， 可 以 推断 
最 后 一 个 TICP 报 文 段 的 超时 时 间 是 32s (63s-16s-8s-4s-2s-1s) 。 因 此 ， 
TCP 模 块 一 共 执 行 了 5 次 重 连 操 作 ， 这 是 
由 /proc/sys/net/ipv4/tcp_syn_retries 内 核 变量 所 定义 的 。 每 次 重 连 的 超时 


时 间 都 增加 一 倍 。 在 5 次 重 连 均 失 败 的 情况 下 ，TCP 模 块 放 弃 连 挡 并 通 
知 应 用 程序 。 


在 应 用 程序 中 ， 我 们 可 以 修改 连接 超时 时 间 ， 具 体 方法 将 在 本 书 


后 续 章 世 中 进行 介绍 。 


3.4 ”TCP 状态 转移 


TCP 连 接 的 任意 一 端 在 任 一 时 刻 都 处 于 某 种 状态 ， 当 前 状态 可 以 通 
过 mnetstat 命 令 \ 见 第 17 章 ) 查看 。 本 说 我 们 要 讨论 的 是 TCP 连 接 从 建立 
到 关闭 的 整个 过 程 中 通信 两 器 状 态 的 变化 。 岁 3-8 是 完整 的 状态 转移 
图 ， 它 描绘 了 所 有 的 TCP 状 态 以 及 可 能 的 状态 转换 。 
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图 3-8 ITCP 状 态 转 移 过 程 


图 3-8 中 的 粗 虚 线 表示 典型 的 服务 紫 并 连接 的 状态 转移 ， 粗 实 线 表 
示 典 型 的 客户 端 连 接 的 状态 转移 。CLOSED 是 一 个 假想 的 起 始点 ， 并 
不 是 一 个 实际 的 状态 。 


3.4.1 ”TCP 状态 转 移 总 图 


我 们 先 讨 论 服务 句 的 典型 状态 转移 过 程 ， 此 时 我 们 说 的 连接 状态 
都 是 指 该 连接 的 服务 紫 端 的 状态 。 


服务 器 通过 listen 系 统 调用 ( 见 第 5 章 ) 进入 LISTEN 状 态 ， 被 动 等 
待 客户 端 连 接 ， 因 此 执行 的 是 所 谓 的 被 动 打开 。 服 务 器 一 旦 监听 到 某 
个 连接 请 求 〈 收 到 同步 报 文 段 ) ， 就 将 该 连接 放 入 内 核 等 待 队列 中 ， 
并 向 客户 端 发 送 带 SYN 标 志 的 确认 报 文 段 。 此 时 该 连接 处 于 
SYN_RCVD 状 态 。 如 果 服 务 器 成 功 地 接收 到 客户 端 发 送 回 的 确认 报 文 
段 ， 则 该 连接 转移 到 ESTABLISHED 状 态 。ESTABLISHED 状 态 是 连接 
双方 能 够 进行 双向 数据 传输 的 状态 。 


当 客户 端 主动 关闭 连接 时 (通过 close 或 shutdown 系 统 调用 向 服务 
器 发 送 结束 报 文 段 ) ， 服 务 器 通过 返回 确认 报 文 段 使 连接 进入 
CLOSE_WAIT 状 态 。 这 个 状态 的 含义 很 明确 : 等 待 服 务 器 应 用 程序 天 
闭 连 接 。 通 常 ， 服 务 器 检测 到 客户 端 关闭 连接 后 ， 也 会 立即 给 客户 端 


发 送 一 个 结束 报 文 段 来 天 闭 连 接 。 这 将 使 连接 转移 到 LAST_ACK 状 
仿 ， 以 等 行 客户 端 对 结束 报 文 段 的 最 后 一 次 确认 。 一 旦 确认 完成 ， 连 
接 束 彻 奈 关闭 了 。 


下 面 讨论 客户 站 的 典型 状态 转移 过 程 ， 此 时 我 们 说 的 连接 状态 都 
征 指 该 连接 的 客户 咒 的 状态 。 


客户 端 通过 connect 系 统 调 用 〈 见 第 5 章 ) 主动 与 服务 器 建立 连接 。 
connect 系 统 调 用 首先 给 服务 器 发 送 一 个 同步 报 文 段 ， 使 连接 转移 到 
SYN_SENT 状 态 。 此 后 ，connect 系 统 调用 可 能 因为 如 下 两 个 原因 失败 
返回 : 


口 如 果 connect 连 接 的 目标 端口 不 存在 (未 被 任何 进程 监听 ) ， 或 
者 该 端口 仍 被 处 于 TIME_WAIT 状 态 的 连接 所 占用 〈 见 后 文 ) ， 则 服务 
句 将 给 客户 端 发 送 一 个 复位 报 文 段 ，connect 调 用 失败 。 


口 如 果 目 标 端口 存在 ， 但 connect 在 超时 时 间 内 未 收 到 服务 器 的 人 确 
认 报 文 段 ， 则 connect 调 用 失败 。 


connect 调 用 失败 将 使 连接 立即 返回 到 初始 的 CLOSED 状 态 。 如 果 
客户 端 成 功 收 到 服务 辟 的 同步 报 文 段 和 确认 ， 则 connect 调 用 成 功 返 
回 ， 连 接 转 移 至 ESTABLISHED 状 态 。 


当 客 户 端 执行 主动 关闭 时 ， 它 将 向 服务 器 发 送 一 个 结束 报 文 段 ， 
同时 连接 进入 FIN_WAIT_1 状 态 。 若 此 时 客户 端 收 到 服务 器 专门 用 于 确 
认 目 的 的 确认 报 文 段 (比如 图 3-6 中 的 TCP 报 文 段 5) ， 则 连接 转移 至 
FIN_WAIT_2 状 态 。 当 客户 端 处 于 FIN_WAIT_2 状 态 时 ， 服 务 器 处 于 
CLOSE_WAIT 状 态 ， 这 一 对 状态 是 可 能 发 生 半 关 闭 的 状态 。 此 时 如 采 
服务 器 也 关闭 连接 〈 发 送 结束 报 文 段 ) ， 则 客户 端 将 给 予 确认 并 进入 
TIME_WAIT 状 态 。 关 于 TIME_WAIT 状 态 的 含义 ， 我 们 将 在 下 一 节 讨 


论 。 


图 3-8 还 给 出 了 客户 端 从 FIN_WAIT_1 状 态 直 接 进 入 TIME_WAIT 状 
态 的 一 条 线路 (不 经 过 FIN_WAIT_2 状 态 ) ， 前 提 是 处 于 FIN_WAIT 1 
状态 的 服务 器 直接 收 到 带 确认 信息 的 结束 报 文 段 (而 不 是 先 收 到 确认 
报 文 段 ， 再 收 到 结束 报 文 段 ) 。 这 种 情况 对 应 于 图 3-6 中 的 服务 器 不 发 
送 TCP 报 文 段 5 。 


前 面 说 过 ， 处 于 FIN_WAIT_2 状 态 的 客户 端 需要 等 待 服务 器 发 送 结 
束 报 文 段 ， 才 能 转移 至 TIME_WAIT 状 态 ， 否 则 它 将 一 直 停 留 在 这 个 状 
态 。 如 果 不 是 为 了 在 半 关 闭 状 态 下 继续 接收 数据 ， 连 接 长 时 间 地 停留 
在 FIN_WAIT_ 2 状态 并 无 益处 。 连 接 停 留 在 FIN_WAIT_2 状 态 的 情况 可 
能 发 生 在 : 客户 端 执行 半 关 闭 后 ， 未 等 服务 器 关闭 连接 惑 强行 退出 
了 。 此 时 客户 端 连 接 由 内 核 来 接管 ， 可 称 之 为 孤儿 连接 (和 孤儿 进程 
类 似 ) 。Linux 为 了 防止 孤儿 连接 长 时 间 存 留 在 内 核 中 ， 定 义 了 两 个 内 


核 变 量 : /proc/sys/net/ipv4/tcp_max_orphans 
和 /proc/sysmmetipv4/tcp_fin_timeout。 前 者 指定 内 核能 接管 购 孤 儿 连 接 数 
目 ， 后 者 指定 孤儿 连接 在 内 核 中 生存 的 时 间 。 


至 此 ， 我 们 简单 地 讨论 了 服务 器 和 客户 端 程序 的 典型 TCP 状 态 转 移 
路 线 。 对 应 于 图 3-6 所 示 的 TCP 连 接 的 建立 与 断 开 过 程 ， 客 户 端 和 服务 
如 的 状态 转移 如 图 3-9 所 示 。 


ernest-laptop Kongming20 
(客户 端 ) 《服务 器 ) 
主动 打开 报 文 段 1 被 动 打开 LISTEN 
SYN_SENT 屋 1 (SYN) 
SYN RCVD 
报 文 段 2 (SYN, ACK) 
ESTABLISHED 
报 文 段 3 (ACK ) 
3 ESTABLISHED 
主动 关闭 报 文 段 4 (FIN) 
FIN WAIT 1 被 动 关闭 
CLOSE WAIT 
报 文 段 5 (ACK) 
FIN WAIT 2 
报 文 段 6 FIN,，ACK) LAST ACK 
TIME WAIT 报 文 段 7 i 
CLOSED 


图 3-9 TCP 连接 的 建立 和 断 开 过 程 中 客户 并 和 服务 絮 的 状态 变化 


图 3-8 还 描绘 了 其 他 非典 型 的 TCP 状 态 转 移 路 线 ， 比 如 同时 关闭 与 
同时 打开 ， 本 书 不 子 讨论 。 


3.4.2 TIME_ WAIT 状态 


从 图 3-9 来 看 ， 客 户 端 连接 在 收 到 服务 器 的 结束 报 文 段 (TCP 报 文 
段 6) 之 后 ， 并 没有 直接 进入 CLOSED 状 态 趾 ， 而 是 转移 到 
TIME_WAIT 状 态 。 在 这 个 状态 ， 客 户 山 连接 要 等 待 一 段 长 为 2MSL 
(Maximum Segment Life， 报 文 段 最 大 生存 时 间 ) 的 时 间 ， 才 能 完全 关 
财 。MSL 征 TCP 报 文 段 在 网 络 中 的 最 大 生存 时 间 ， 标 准 文 档 RFC 1122 
的 建议 值 是 2 min。 


TIME_WAIT 状 态 存 在 的 原因 有 两 点 : 
口 可 靠 地 终止 TCP 连 接 。 
口 保证 让 迟 来 的 TCP 报 文 段 有 足够 的 时 间 被 识别 并 丢弃 。 


第 一 个 原因 很 好 理解 。 假 设 图 3-9 中 用 于 确认 服务 器 结束 报 文 段 6 的 
TCP 报 文 段 7 丢失 ， 那 么 服务 器 将 重 发 结束 报 文 段 。 因 此 客户 端 需要 停 
留 在 某 个 状态 以 处 理 重复 收 到 的 结束 报 文 段 ( 即 向 服务 器 发 送 确 认 报 
文 段 ) 。 否 则 ， 客 户 问 将 以 复位 报 文 段 来 回应 服务 器 ， 服 务 器 则 认为 
这 是 一 个 错误 ， 因 为 它 期 户 的 是 一 个 像 TCP 报 文 段 7 那样 的 确认 报 文 


段 。 


在 Linux 系 统 上 ， 一 个 TCP 端 口 不 能 被 同时 打开 多 次 (两 次 及 以 
上 ) 。 当 一 个 TCP 连 接 处 于 TIME_WAIT 状 态 时 ， 我 们 将 无 法 立即 使 用 


该 连接 占用 着 的 端口 来 建立 一 个 新 连接 。 反 过 来 思考 ， 如 果 不 存 在 
TIME_WAIT 状 态 ， 则 应 用 程序 能 够 立即 建立 一 个 和 刚 关 闭 的 连接 相似 
的 连接 (这 里 说 的 相似 ， 是 指 它们 具有 相同 的 IP 地 址 和 端口 号 ) 。 这 
个 新 的 、 和 原来 相似 的 连接 被 称 为 原来 的 连接 的 化 身 (incarnation) 。 
新 的 化 喘 可 能 接收 到 属于 原来 的 连接 的 、 携 带 应 用 程序 数据 的 TCP 报 文 
段 《迟到 的 报 文 段 ) ， 这 显然 是 不 应 该 发 生 的 。 这 就 是 TIME_WAIT 状 
态 存 在 的 第 二 个 原因 。 


男 外 ， 因 为 TCP 报 文 段 的 最 大 生存 时 间 是 MSL， 所 以 坚持 2MSL 时 
间 的 TIME_WAIT 状 态 能 够 确保 网 络 上 两 个 传输 方向 上 尚未 被 接收 到 
的 、 述 到 的 TCP 报 文 段 都 已 经 消失 (被 中 转 路 由 器 丢弃 ) 。 因 此 ， 一 个 
连接 的 新 的 化 身 可 以 在 2MSL 时 间 之 后 安全 地 建立 ， 而 绝对 不 会 接收 到 
属于 原来 连接 的 应 用 程序 数据 ， 这 就 是 TIME_WAIT 状 态 要 持续 2MSL 
时 间 的 原因 。 


有 时 候 我 们 希望 避免 TIME_WAIT 状 态 ， 因 为 当 程序 退出 后 ， 我 们 
希望 能 够 立即 重启 它 。 但 由 于 处 在 TIME_WAIT 状 态 的 连接 还 占用 着 端 
口 ， 程 序 将 无 法 启动 (直到 2MSL 超 时 时 间 结 束 ) 。 考 虑 一 个 例子 : 在 
测试 机 恬 ernest-laptop 上 以 客户 端 方式 运行 nc (用 于 创建 网 络 连 接 的 工 
具 ， 见 第 17 章 ) 命令 ， 登 录 本 机 的 Web 服 务 ， 且 明确 指定 客户 端 使 用 
12345 端 口 与 服务 硕 通 信 。 然 后 从 终端 输入 Ctrl+C 终 止 客户 端 程序 ， 接 


着 又 立即 重启 nc 程序 ， 以 完全 相同 的 方式 再 次 连接 本 机 的 Web 服 务 。 有 具 
体操 作 如 下 : 


$nc-p 12345 192.168.1.108 80 

ctr1+Cc# 中 断 客户 端 程序 

$nc-p 12345 192.168.1.108 80# 重 启 客户 端 程序 ， 重 新 建立 连接 

nc:bind failed:Address already in use# 输 出 显示 连接 失败 ， 因 为 12345 端 口 
仍 被 占用 

$netstat-nat# 用 netstat 命 令 查看 连接 状态 

Proto Recv-Q Send-Q Local Address Foreign Address State 

tcp © © 192.168.1.108:12345 192.168.1.108:80 TIME_WAIT 


这 里 我 们 使 用 netstat 命 令 查 看 连接 的 状态 。 其 输出 显示 ， 客 户 端 程 
序 被 中 断后 ， 连 接 进 入 TIME_WAIT 状 态 ，12345 端 口 仍 被 占用 ， 所 以 
客户 端 重 启 失败 。 


对 客户 端 程序 来 说 ， 我 们 通常 不 用 担心 上 面 描述 的 重启 问题 。 
为 客户 端 一 般 使 用 系统 自动 分 配 的 临时 端口 号 来 建立 连接 ， 而 由 于 随 
机 性 ， 临 时 端口 号 一 般 和 程序 上 一 次 使 用 的 端口 号 (还 处 于 
TIME_WAIT 状 态 的 那个 连接 使 用 的 端口 号 ) 不 同 ， 所 以 客户 端 程序 一 
般 可 以 立即 重启 。 上 面 的 例子 仅仅 是 为 了 说 明 问 题 ， 我 们 强制 客户 端 
使 用 12345 端 口 ， 这 才 导 致 立即 重启 客户 端 程序 失败 。 


但 如 果 是 服务 器 主动 关闭 连接 后 异常 终止 ， 则 因为 它 总 是 使 用 同 
一 个 知名 服务 端口 号 ， 所 以 连接 的 TIME_WAIT 状 态 将 导致 它 不 能 立即 
重启 。 不 过 ， 我 们 可 以 通过 socket 选 项 SO_REUSEADDR 来 强制 进程 立 
即使 用 处 于 TIME_WAIT 状 态 的 连接 占用 的 端口 ， 这 将 在 第 5 章 讨论 。 


[1] 请 读者 根据 语 境 判 晰 连接 的 状态 是 指 客 户 端 状态 还 是 服务 甫 状态， 
后 同 。 


3.5 复位 报 文 段 


在 某 些 特殊 条 件 下 ，TCP 连 接 的 一 端 会 癌 另 一 端 发 送 携 市 RST 标 
志 的 报 文 段 ， 即 复位 报 文 段 ， 以 通知 对 方 关闭 连接 或 重新 建立 连接 。 
本 节 讨 论 产 生 复位 报 文 段 的 3 种 情况 。 


3.5.1 访问 不 存在 的 端口 


3.4.1 小 节 提 到 ， 当 客户 端 程 序 访问 一 个 不 存在 的 端口 时 ， 目 标 主 
机 将 给 它 发 送 一 个 复位 报 文 段 。 考 虑 从 Kongming20 上 执行 telnet 命 令 登 
录 ernest-laptop 上 一 个 不 存在 的 54321 端 口 ， 并 用 tcpdump 抓 取 该 过 程 中 
两 台 主 机 交换 的 TCP 报 文 段 。 有 具体 操作 过 程 如 下 : 


$sudo tcpdump-nt-i eth9 port 54321# 仅 抓 取 发 送 至 和 来 自 54321 端 口 的 TCP 
报 文 段 

$telnet 192.168.1.108 54321 

Trying 192.168.1.108... 

telnet:connect to address 192.168.1.108:Connection refused 


telnet 程 序 的 输出 显示 连接 被 拒绝 了 ， 因 为 这 个 端口 不 存在 。 
tcpdump 抓 取 到 的 TCP 报 文 段 内容 如 下 : 


1.IP 192.168.1.109.42001>192.168.1.108.54321:Flags[S],seq 
21621375,win 14600,1length 0 

2.IP 192.168.1.108.54321>192.168.1.109.42001:Flags[R.],seq 
0,ack 21621376,win 0,length 0 


由 此 可 见 ，ernest-laptop 针 对 Kongming20 的 连接 请 求 〈 同 步 报 文 
段 ) 回应 了 一 个 复位 报 文 段 (tcpdump 输 出 R 标 志 ) 。 因 为 复位 报 文 段 
的 接收 通告 窗口 大 小 为 0， 所 以 可 以 预见 : 收 到 复位 报 文 段 的 一 端 应 该 
关闭 连接 或 者 重新 连接 ， 而 不 能 回应 这 个 复位 报 文 段 。 


实际 上 ， 当 客户 端 程序 向 服务 器 的 某 个 端口 发 起 连接 ， 而 该 端口 
仍 和 被 处 于 TIME_WAIT 状 态 的 连接 所 占用 时 ， 客 户 端 程序 也 将 收 到 复位 
报 文 段 。 


前 面 讨论 的 连接 终止 方式 都 是 正当 的 终止 方式 ， 数据 交换 完成 之 
后 ， 一方 给 男 一 方 发 送 结束 报 文 段 % TCP 提 供 了 异常 终止 一 个 连接 的 
方法 ， 即 给 对 方 发 送 一 个 复位 报 文 段 。 一 旦 发 送 了 复位 报 文 段 ， 发 送 
问 所 有 排队 等 每 发 送 的 数据 都 将 被 丢弃 。 


应 用 程序 可 以 使 用 socket 选 项 SO_LINGER 来 发 送 复 位 报 文 段 ， 以 


异常 终止 一 个 连接 。 我 们 将 在 第 5 和 章 讨 论 SO_LINGER 选 项 。 


3.5.3 “处理 半 打 开 连 接 


考虑 下 面 的 情况 : 服务 器 (或 客户 端 ” 关闭 或 者 异 肖 终止 了 连 
接 ， 而 对 方 没有 接收 到 结束 报 文 段 〈 比 如 发 生 了 网 络 故障 ) ， 此 时 ， 


客户 端 (或 服务 器 ) 还 维持 着 原来 的 连接 ， 而 服务 器 (或 客户 端 即 
使 重 司 ， 也 已 经 没有 该 连接 的 任何 信息 了 。 我 们 将 这 种 状态 称 为 半 打 
开 状 态 ， 处 于 这 种 状态 的 连接 称 为 半 打 开 和 连接。 如果 客户 端 (或 服务 
器 ) 往 处 于 半 打 开 状 态 的 连接 写 入 数据 ， 则 对 方 将 回应 一 个 复位 报 文 


段 。 


举例 来 说 ， 我 们 在 Kongming20 上 使 用 nc 命令 模拟 一 个 服务 器 程 
序 ， 使 之 监听 12345 端 口 ， 然 后 从 ernest-laptop 运 行 telnet 命 令 登 录 到 该 
端口 上 ， 接 着 拔 掉 ernest-laptop 的 网 线 ， 并 在 Kongming20 上 中 断 服务 器 
程序 。 显 然 ， 此 时 ernest-laptop 上 运行 的 telnet 客 户 端 程序 维持 着 一 个 半 
打开 连接 。 然 后 接 上 emest-laptop 的 网 线 ， 并 从 客户 端 程 序 往 半 打开 连 
接 写 入 1 字 市 的 数据 “a”。 同 时 ， 运 行 tcpdump 程 序 抓 取 整 个 过 程 中 
telnet 客 户 端 和 nc 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 


$nc-1 12345# 在 Kongming20 上 运行 服务 器 程序 

$sudo tcpdump-nt-i etho port 12345 

$telnet 192.168.1.109 12345# 在 ernest-laptop 上 运行 客户 端 程序 
Trying 192.168.1.109.,.., 

Connected to 192.168.1.109. 

Escape character is'^]'.# 此 时 汤 开 ernest-laptop 的 网 线 ， 并 重启 服务 器 
a ( 回 车 ) # 疝 半 打 开 连 接 输入 字符 a 

Connection closed by foreign host. 


telnet 的 输出 显示 ， 连 接 补 服务 器 关闭 了 。tcpdump 抓 取 到 的 TCP 
报 文 段 内 容 如 下 : 


1.IP 192.168.1.108.55100>192.168.1.109.12345:Flags[S],seq 
3093809365, length 0 


2.IP 192.168.1.109.12345>192.168.1.108.55100:Flags[S.],sed 
1495337791, ack 3093809366, length 0 

3.IP 192.168.1.108.55100>192.168.1.109.12345:Flags[.],ack 
1,1length 0 

4.IP 192.168.1.108.55100>192.168.1.109.12345:Flags[P.],seq 
1:4,ack 1,1length 3 

5.IP 192.168.1.109.12345>192.168.1.108.55100:Flags[R],seq 
1495337792, length 0 


该 输出 内 容 中 ， 前 3 个 TCP 报 文 段 是 正常 建立 TCP 连 接 的 3 次 握手 
的 过 程 。 第 4 个 TCP 报 文 段 由 客户 端 发 送 给 服务 器 ， 它 携带 了 3 字 节 的 
应 用 程序 数据 ， 这 3 字 依 次 是 : 字母“a”、 回 车 符 A* 和 换行 符 “\n”。 
不 过 因为 服务 器 程序 已 经 被 中 断 ， 所 以 Kongming20 对 客户 端 发 送 的 数 
据 回应 了 一 个 复位 报 文 段 5 。 


3.6 ” TCP 交互 数据 流 


前 面 讨论 了 了 TCP 连接 及 其 状态 ， 从 本 市 开始 我 们 讨论 通过 TCP 连 
接 交 换 的 应 用 程序 数据 。TCP 报 文 段 所 携带 的 应 用 程序 数据 按照 长 度 
分 为 两 种 ， 交 互 数据 和 成 块 数据 。 交 互 数 据 仅 包含 很 少 的 子 节 。 使 用 
交互 数据 的 应 用 程序 (或 协议 ) 对 实时 性 要 求 高 ， 比 如 telnet、ssh 等 。 
成 块 数据 的 长 度 则 通常 为 TCP 报 文 段 允 许 的 最 大 数据 长 度 。 使 用 成 块 
数据 的 应 用 程序 (或 协议 ， 对 传输 效率 要 求 高 ， 比 如 ftp。 本 节 我 们 讨 


论 交 互 数 据 流 。 


考虑 如 下 情况 : 在 ernest-laptop 上 执行 telnet 命 令 登 录 到 本 机 ， 然 后 
在 shell 命 令 提示 符 后 执行 ls 命令 ， 同 时 用 tcpdump 抓 取 这 一 过 程 中 telnet 
客户 端 和 telnet 服 务 避 交 换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 


$tcpdump-nt-i lo port 23 
$telnet 127.0.0.1 
Trying 127.0.0.1... 
Connected to 127.0.0.1. 
Escape character is'^]'". 
Ubuntu 9.10 
ernest-laptop login:ernest ( 回 车 ) # 输 入 用 户 名 并 回 车 
Password: ( 回 车 ) # 输 入 密码 并 回 车 
ernest@ernest-laptop:~$ls ( 回 车 ) 


上 述 过 程 将 引起 客户 端 和 服务 亏 交 换 很 多 TCP 报 文 段 。 下 面 我 们 
仅 列 出 我 们 感 兴趣 的 、 执 行 ls 命令 产生 的 tcpdump 输 出 ， 如 代码 清单 3-4 


所 示 。 


代码 清单 3-4” TCP 交互 数据 流 


1.IP 127.0.0.1.58130>127.0.0.1.23:Flags[P.],seq 
1408334812:1408334813,ack 1415955507,win 613, Length 1 

2.IP 127.0.0.1.23>127.0.0.1.58130:Flags[P.],seq 1:2,ack 1,win 
512, length 1 

3.IP 127.0.0.1.58130>127.0.0.1.23:Flags[.],ack 2,win 613,1length 
0 

4.IP 127.0.0.1.58130>127.0.0.1.23:FLlags[P.],sed 1:2,ack 2,win 
613,1length 1 

5.IP 127.0.0.1.23>127.0.0.1.58130:Flags[P.],seq 2:3,ack 2,win 
512, length 1 

6.IP 127.0.0.1.58130>127.0.0.1.23:Flags[.],ack 3,win 613,1length 
0 

7.IP 127.0.0.1.58130>127.0.0.1.23:Flags[P.],seq 2:4,ack 3,win 
613, length 2 

8.IP 127.0.0.1.23>127.0.0.1.58130:Flags[P.],seq 3:176,ack 4,win 
512, length 173 

9.IP 127.0.0.1.58130>127.0.0.1.23:Flags[.],ack 176,win 
630, length 0 

10.IP 127.0.0.1.23>127.0.0.1.58130:Flags[P.],seq 176:228,ack 
4,win 512,1length 52 

11.IP 127.0.0.1.58130>127.0.0.1.23:Flags[.],ack 228,win 
630, length 0 


TCP 报 文 段 1 由 客户 端 发 送 给 服务 絮 ， 它 携带 1 个 字 节 的 应 用 程序 
数据 ， 即 字母 4*”。TCP 报 文 段 2 是 服务 颖 对 TCP 报 文 段 1 的 确认 ， 同 时 
回 显 字母 4*”。TCP 报 文 段 3 十 客户 端 对 TCP 报 文 段 2 的 确认 。 第 4 一 6 个 
TCP 报 文 段 是 针对 字母 “s” 的 上 述 过 程 。TCP 报 文 段 7 传送 的 2 字 节 数据 
分 别 是 : 客户 端 键入 的 回 车 符 和 流 结 束 符 (EOF， 本 例 中 是 0x00) 。 
TCP 报 文 段 8 携带 服务 器 返回 的 客户 查询 的 目录 的 内 容 (ls 命令 的 输 
出 ) ， 包 括 该 目录 下 文件 的 文件 名 及 其 显示 控制 参数 。TCP 报 文 段 9 是 


客户 端 对 TCP 报 文 段 8 的 确认 。TCP 报 文 段 10 携 带 的 也 是 服务 器 返回 给 
客户 端的 数据 ， 包 括 一 个 回 车 符 、 一 个 换行 符 、 客 户 并 登录 用 户 的 
PS1 环 境 变 量 (第 一 级 命令 提示 符 ) 。TCP 报 文 段 11 是 客户 端 对 TCP 报 


文 段 10 的 确认 。 


在 上 述 过 程 中 ， 客 户 端 针 对 服务 器 返回 的 数据 所 发 送 的 确认 报 文 
段 (TCP 报 文 段 6、9 和 11) 都 不 携带 任何 应 用 程序 数据 (长 度 为 0) ， 
而 服务 器 每 次 发 送 的 确认 报 文 段 (TCP 报 文 段 >、5、8 和 10) 都 包含 它 
需要 发 送 的 应 用 程序 数据 。 服 务 器 的 这 种 处 理 方式 称 为 延迟 确认 ， 即 
它 不 马上 确认 上 次 收 到 的 数据 ， 而 是 在 一 段 延 迟 时 间 后 查看 本 端 是 否 
有 数据 需要 发 送 ， 如 果 有 ， 则 和 确认 信息 一 起 发 出 。 因 为 服务 器 对 客 
户 请 求 处 理 得 很 快 ， 所 以 它 发 送 确认 报 文 段 的 时 候 总 是 有 数据 一 起 发 
送 。 延 迟 确认 可 以 减少 发 送 TCP 报 文 段 的 数量 。 而 由 于 用 户 的 输入 速 
度 明 显 慢 于 客户 端 程 序 的 处 理 速 度 ， 所 以 客户 端的 确认 报 文 段 总 是 不 
携带 任何 应 用 程序 数据 。 前 文 曾 提 到 ， 在 TCP 连 接 的 建立 和 断 开 过 程 
中 ， 也 可 能 发 生 延 迟 确认 。 


上 例 生 在 本 地 回路 运行 的 结 有 末 ， 在 局 域 网 中 也 能 得 到 基本 相同 的 
结果 ， 但 在 广域网 束 未 必 如 此 了 。 广 域 网 上 的 交互 数据 流 可 能 经 受 很 
大 的 延迟 ， 并 且 ， 携 带 交 互 数 据 的 微小 TCP 报 文 段 数量 一 般 很 多 (一 
个 按键 输入 就 导致 一 个 TCP 报 文 段 ，， 这 些 因素 都 可 能 导致 拥塞 发 
生 。 解 决 该 问题 的 一 个 催 单 有 效 的 方法 是 使 用 Nagle 算 法 。 


Nagle 算 法 有 要 求 一 个 TCP 连 接 的 通信 双方 在 任意 时 刻 都 最 多 只 能 发 
送 一 个 未 被 确认 的 TCP 报 文 段 ， 在 该 TCP 报 文 段 的 确认 到 达 之 前 不 能 
发 送 其 他 TCP 报 文 段 。 另 一 方面 ， 发 送 方 在 等 竺 确认 的 同时 收集 本 端 
需要 发 送 的 微量 数据 ， 并 在 确认 到 来 时 以 一 个 TCP 报 文 段 将 它们 全 间 
发 出 。 这 样 殉 极 大 地 减少 了 网 络 上 的 微小 TCP 报 文 段 的 数量 。 该 算法 
的 另 一 个 优点 在 于 其 自 适 应 性 : 确认 到 达 得 越 快 ， 数 据 也 就 发 送 得 越 
快 。 


3.7 ”TCP 成 块 数据 流 


下 面 考虑 用 FTP 协 议 传输 一 个 大 文件 。 在 ernest-laptop 上 局 动 一 个 
vsftpd 服 务 器 程序 〈 升 级 的 、 安 全 版 的 ftp 服 务 器 程序 ) ， 并 执行 fp 命 
令 登 录 该 服务 器 上 ， 然 后 在 ftp 命 令 提示 符 后 输入 get 命 令 ， 从 服务 右 下 
载 一 个 几 百 兆 的 大 文件 。 同 时 用 tcpdump 抓 取 这 一 个 过 程 中 ftp 客 户 端 
和 vsftpd 服 务 器 交换 的 TCP 报 文 段 。 具体 操作 过 程 如 下 : 


$sudo tcpdump-nt-i etho9 port 20#vsftpd 服 务 器 程序 使 用 端口 号 20 
$ftp 127.0.0.1 

Connected to 127.0.0.1. 

220(vsFTPd 2.3.0) 

Name (127.0.0.1:ernest):ernest ( 回 车 ) # 输 入 用 户 名 并 回 车 
331 Please specify the password. 

Password: ( 回 车 ) # 输 入 密码 并 回 车 
230 Login successful. 

Remote system type is UNIX. 
Using binary mode to transfer files. 
ftp>get bigfile ( 回 车 ) # 获 取 大 文件 bigfile 


[ 


代码 清单 3-5 是 该 过 程 的 部 分 tcpdump 输 出 。 
代码 清单 3-5” TCP 成 块 数据 流 


1.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],sedq 
205783041:205799425,ack 1,win 513,length 16384 

2.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],sedq 
205799425:205815809,ack 1,win 513, length 16384 

3.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],sedq 
205815809:205832193,ack 1,win 513,length 16384 

4.IP 127.0.0.1.20>127.0.0.1.39651:Flags[P.],sedq 
205832193:205848577,ack 1,win 513, Length 16384 


5.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],seq 
205848577:205864961,ack 1,win 513, length 16384 

6.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],seq 
205864961:205881345,ack 1,win 513, length 16384 

7.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],seq 
205881345:205897729,ack 1,win 513, Length 16384 

8.IP 127.0.0.1.20>127.0.0.1.39651:Flags[P.],seq 
205897729:205914113,ack 1,win 513,1length 16384 

9.IP 127.0.0.1.20>127.0.0.1.39651:Flags[.],seq 
205914113:205930497,ack 1,win 513, length 16384 

10.IP 127.0.0.1.20>127.0.0.1,.39651:Flags[.],seq 
205930497:205946881,ack 1,win 513,1length 16384 

11.IP 127.0.0.1.20>127.0.0.1,39651:Flags[.],seq 
205946881:205963265,ack 1,win 513,1length 16384 

12.IP 127.0.0.1.20>127.0.0.1.39651:Flags[P,],sedq 
205963265:205979649,ack 1,win 513, length 16384 

13.IP 127.0.0.1.20>127.0.0.1,.39651:Flags[.],seq 
205979649:205996033,ack 1,win 513, length 16384 

14.IP 127.0.0.1.20>127.0.0.1,.39651:Flags[.],seq 
205996033:206012417,ack 1,win 513,1length 16384 

15.IP 127.0.0.1.20>127.0.0.1,.39651:Flags[.],seq 
206012417:206028801,ack 1,win 513, length 16384 

16.IP 127.0.0.1.20>127.0.0.1.39651:Flags[P,],sedq 
206028801:206045185,ack 1,win 513,1length 16384 

17.IP 127.0.0.1.39651>127.0.0.1.20:Flags[.],ack 205815809,win 
30084, length 0 

18.IP 127.0.0.1.39651>127.0.0.1.20:Flags[.],ack 206045185,win 
27317, length 0 


注意 ， 客 户 端 发 送 的 最 后 两 个 TCP 报 文 段 17 和 18， 它 们 分 别 是 对 
TCP 报 文 段 2 和 16 的 确认 (从 序号 值 和 确认 值 来 判断 ; ，。 由 此 可 见 ， 当 
传输 大 量 大 块 数据 的 时 候 ， 发 送 方 会 连续 发 送 多 个 TCP 报 文 段 ， 接 收 
方 可 以 一 次 确认 所 有 这 些 报 文 段 。 那 么 发 送 方 在 收 到 上 一 次 确认 后 ， 
能 连续 发 送 多 少 个 TCP 报 文 段 呢 ? 这 是 由 接收 通告 窗口 (还 需要 考虑 
拥塞 窗口 ， 见 后 文 ) 的 大 小 决定 的 。TCP 报 文 段 17 说 明 客户 端 还 能 接 
收 30 084x64 字 节 (本 例 中 窗口 扩大 因子 为 6 ， 即 1 925 376 字 节 的 数 
据 。 而 在 TCP 报 文 段 18 中 ， 接 收 通告 窗口 大 小 为 1 748 288 字 三 ， 即 客 


户 端 能 接收 的 数据 量变 小 了 。 这 表明 客户 端的 TCP 接 收 缓冲 区 有 更 多 
的 数据 未 被 应 用 程序 读 取 而 停留 在 其 中 ， 这 些 数据 都 来 自 TCP 报 文 段 3 
~16 中 的 一 部 分 。 服 务 器 收 到 TCP 报 文 段 18 后 ， 它 至 少 (因为 接收 通 
告 窗口 可 能 扩大 ) 还 能 连续 发 送 的 未 被 确认 的 报 文 段 数量 是 1 748 
288/16 384 个 ， 即 106 个 (但 一 般 不 会 连续 发 送 这 么 多 ) 。 其 中 ，16 
384 是 成 块 数据 的 长 度 〈 见 TCP 报 文 段 1 一 16 的 leangth 值 ) ， 很 显然 它 小 
于 但 接近 MSS 规 定 的 16 396 字 市 。 


男 外 一 个 值得 注音 的 地 方 是 ， 服 务 器 每 发 送 4 个 TCP 报 文 段 束 传送 
一 个 PSH 标 志 (tcpdump 输 出 标志 P) 给 客户 端 ， 以 通知 客户 端的 应 用 
程序 尽快 读 取 数据 。 不 过 这 对 服务 名 来 说 显然 不 是 必需 的 ， 因 为 它 知 
道 客户 端的 TCP 接 收 缓冲 区 中 还 有 空 内 空间 (接收 通告 窗口 大 小 不 为 
0) 。 


下 面 我 们 修改 系统 的 TCP 接 收 缓冲 区 和 TCP 发 送 缓冲 区 的 大 小 
(如 何 修改 将 在 第 16 章 介绍 )  ， 使 之 都 为 4096 字 让 ， 然 后 重启 vsftpd 服 
务 器 ， 并 再 次 执行 上 述 操作 。 此 次 tcpdump 的 部 分 输出 如 代码 清单 3-6 
Es, 


代码 清单 3-6 ”修改 TCP 接 收 和 发 送 绥 冲 区 大 小 后 的 TCP 成 块 数据 


1.IP 127.0.0.1.20>127.0.0.1.45227:Flags[.],sedq 
5195777:5197313,ack 1,win 3072,1length 1536 


2.IP 127.0.0.1.20>127.0.0.1.45227: 


5197313:5198849,ack 1,win 3072,1length 


3.IP 127.0.0.1.45227>127.0.0.1.20: 


3072, length 0 


4.IP 127.0.0.1.20>127.0.0.1.45227: 


5198849:5200385,ack 1,win 3072,1length 


5.IP 127.0.0.1.45227>127.0.0.1.20: 


3072, length 0 


Flags[.],seq 
1536 
Flags[.],ack 5198849,win 


Flags[P.],sedq 
1536 
Flags[.],ack 5200385,win 


从 同步 报 文 段 (未 在 代码 清单 3-6 中 列 出 ) 得 知 在 这 次 通信 过 程 
中 ， 客 户 端 和 服务 此 的 窗口 扩大 因子 都 为 0， 因 而 客户 端 和 服务 器 每 次 
通告 的 窗口 大 小 都 是 3072 字 万 ( 没 超 过 4096 字 记 ， 预 料 之 中 ) 。 因 为 
每 个 成 块 数据 的 长 度 为 1536 子 太 ， 所 以 服务 器 在 收 到 上 一 个 TCP 报 文 
段 的 确认 之 前 最 多 还 能 再 发 送 1 个 TCP 报 文 段 ， 这 正 是 TCP 报 文 段 1~3 


描述 的 情形 。 


3.8 ”市 外 数据 


有 些 传输 层 协议 具有 带 外 (Out Of Band，OOB) 数据 的 概念 ， 用 
于 迅速 通告 对 方 本 端 发 生 的 重要 事件 。 因 此 ， 市 外 数据 比 普通 数据 
(也 称 为 带 内 数据 ) 有 更 高 的 优先 级 ， 它 应 该 总 是 立即 被 发 送 ， 而 不 
论 发 送 绥 冲 区 中 是 否 有 排队 等 得 发 送 的 普通 数据 。 珊 外 数据 的 传输 可 
以 使 用 一 条 独立 的 传输 层 连接 ， 也 可 以 映射 到 传输 普通 数据 的 连接 
中 。 实 际 应 用 中 ， 市 外 数据 的 使 用 很 少 抑 ， 已 知 的 仅 有 telnet、fpp 等 远 
程 非 活跃 程序 。 


UDP 没有 实现 带 外 数据 传输 ，TCP 也 没有 真正 的 带 外 数据 。 不 过 
TCP 利 用 其 头 部 中 的 紧急 指针 标志 和 紧急 指针 两 个 字段 ， 给 应 用 程序 提 
供 了 一 种 紧急 方式 。TCP 的 紧急 方式 利用 传输 普通 数据 的 连接 来 传输 紧 
急 数据 。 这 种 紧急 数据 的 售 义 和 市 外 数据 类 似 ， 因 此 后 文 也 将 TCP 紧 急 
数据 称 为 市 外 数据 。 


我 们 移 来 介绍 TCP 发 送 市 外 数据 的 过 程 。 假 设 一 个 进程 已 经 往 菜 个 
TCP 连 接 的 发 送 缓 神 区 中 写 入 了 N 字 节 的 普通 数据 ， 并 等 竺 其 发 送 。 在 
数据 被 发 送 表 ， 该 进程 又 问 这 个 连接 写 入 了 3 字 万 的 市 外 数据 “abc"。 此 
时 ， 竺 发 送 的 TCP 报 文 段 的 头 部 将 被 设置 URG 标 志 ， 并 且 紧 急 指 针 被 
设置 为 指 癌 最 后 一 个 市 外 数据 的 下 一 字 节 《进一步 减 去 当前 TCP 报 文 段 
的 序号 值得 到 其 头 部 中 的 紧急 偏 移 值 ，， 如 图 3-10 所 示 。 


TCP 发 送 缓冲 区 


| | 


第 1 字 节 第 N 字 节 紧急 指针 


图 3-10 TCP 发 送 缕 冲 区 中 的 紧急 数据 


由 图 3-10 可 见 ， 发 送 端 一 次 发 送 的 多 字 市 的 带 外 数据 中 只 有 最 后 
字 节 被 当 作 带 外 数据 〈 字 母 c/ ， 而 其 他 数据 (字母 a 和 b) 被 当成 了 普 
通 数据 。 如 果 TCP 模 块 以 多 个 TCP 报 文 段 来 发 送 图 3-10 所 示 TCP 发 送 组 
冲 区 中 的 内 容 ， 则 每 个 TCP 报 文 段 都 将 设置 URG 标 志 ， 并 且 它 们 的 紧 
急 指针 指向 同一 个 位 置 (数据 流 中 带 外 数据 的 下 一 个 位 置 ) ， 但 只 
一 个 TICP 报 文 段 真 正 携带 带 外 数据 。 


现在 考 虚 TCP 接 收市 外 数据 的 过 程 。TCP 授 收 问 只 有 在 接收 到 紧急 
指针 标志 时 才 检 查 紧 急 指针 ， 然 后 根据 紧急 指针 所 指 的 位 置 确定 市 外 
数据 的 位 置 ， 并 将 它 读 入 一 个 特殊 的 缓存 中 。 这 个 缓存 只 有 1 子 广 ， 称 
为 带 外 缓存 。 如 果 上 层 应 用 程序 没有 及 时 将 带 外 数据 从 带 外 缓存 中 读 
出 ， 则 后 续 的 带 外 数据 (如 果 有 的 话 ) 将 覆盖 它 。 


前 面 讨论 的 带 外 数据 的 接收 过 程 是 TCP 模 块 接收 带 外 数据 的 默认 方 
式 。 如 果 我 们 给 TCP 连 接 设置 了 SO_OOBINLINE 选 项 ， 则 带 外 数据 将 
和 普通 数据 一 样 被 TCP 模 块 存放 在 TCP 接 收 缓冲 区 中 。 此 时 应 用 程序 需 
要 像 读 取 普通 数据 一 样 来 读 取 带 外 数据 。 那 么 这 种 情况 下 如 何 区 分 带 


外 数据 和 普通 数据 呢 ? 显然 ， 紧 急 指 针 可 以 用 来 指出 珊 外 数据 的 位 
置 ，socket 编 程 接口 也 提供 了 系统 调用 来 识别 带 外 数据 〈 见 第 5 章 ) 。 


至 此 ， 我 们 讨论 了 人 TCP 模块 发 送 和 接收 带 外 数据 的 过 程 。 至 于 内 核 
如 何 通 知 应 用 程序 市 外 数据 的 到 来 ， 以 及 应 用 程序 如 何 发 送 和 接收 市 
外 数据 ， 将 在 后 续 章 节 讨 论 。 


3.9” TCP 超时 重 传 


在 3.6 节 ~3.8 节 中 ， 我 们 讲述 了 TCP 在 正常 网 络 情况 下 的 数据 流 。 
从 本 节 开 始 ， 我 们 讨论 异常 网 络 状 况 下 〈 开 始 出 现 超时 或 丢 包 ) ， 
TCP 如 何 控 制 数据 传输 以 保证 其 承诺 的 可 靠 服 务 。 


TCP 服 务必 须 能 够 重 传 超时 时 间 内 未 收 到 确认 的 TCP 报 文 段 。 为 
此 ，TCP 模 块 为 每 个 TCP 报 文 段 都 维护 一 个 重 传 定 时 器 ， 该 定时 器 在 
TCP 报 文 段 第 一 次 被 发 送 时 启动 。 如 果 超 时 时 间 内 未 收 到 接收 方 的 应 
答 ，TCP 模 块 将 重 传 TCP 报 文 段 并 重 置 定时 器 。 人 至 于 下 次 重 传 的 超时 
时 间 如 何 选择 ， 以 及 最 多 执行 多 少 次 重 传 ， 束 是 TCP 的 重 传 策略 。 我 
们 通过 实例 来 研究 Linux 下 TCP 的 超时 重 传 策 略 。 


在 ernest-laptop 上 局 动 iperf 服 务 右 程序 ， 然 后 从 Kongming20 上 执行 
telnet 命 令 登 孙 该 服务 右 程 序 。 接 下 来 ， 从 telnet 客 户 端 发 送 一 些 数据 
(此 处 是 “1234”) 给 服务 器 ， 然 后 断 开 服务 器 的 网 线 并 再 次 从 客户 端 
发 送 一 些 数据 给 服务 器 (此 处 是 “12”) 。 同 时 ， 用 tcpdump 抓 取 这 一 过 
程 中 客户 端 和 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 过 程 如 下 : 


$sudo tcpdump-n-i etho port 5001 
$iperf-s# 在 ernest-laptop 上 执行 

$telnet 192.168.1.108 5001# 在 Kongming20 上 执行 
Trying 192.168.1.108,,， 

Connected to 192.168.1.108. 

Escape character is'^]'. 


1234# 发 送 完 之 后 断 开 服务 器 网 线 


12 


Connection closed by foreign host 


iperf 是 一 个 测量 网 络 状况 的 工具 ，-s 选 项 表示 将 其 作为 服务 器 运 
行 。iperf 默 认 监 听 5001 端 口 ， 并 丢弃 该 端口 上 接收 到 的 所 有 数据 ， 相 
当 于 一 个 discard 服 务 恬 。 上 述 操 作 过 程 的 部 分 tcpdump 输 出 如 代码 清单 


3-7 所 示 


0 


代码 清单 3-7 TCP 超 时 重 传 


1.18 


192.168. 


2.18 


192.168. 


3.18 


192.168. 


4.18 


192.168. 
5.18: 
192.168. 
6.18: 
192.168. 


7.18 


192.168. 


8.18 


192.168. 


9.18 


192.168. 


:44:57， 
.5001:Flags[S],seq 2381272950, Jength 0 
:44:57， 
1.109. 
:44:57， 
1.108. 
:44:59， 
1.108. 
44:59， 
1.109. 
45:25. 
1.108. 
:45:25. 
1.108. 
:45:25. 
1.108. 
:45:26 


1.108 


1.108 


580341 IP 192.168.1.109.38234> 


580477 IP 192.168.1.108.5001> 
38234:Flags[S.],seq 466032301,ack 2381272951, Length 0 
580498 IP 192.168.1.109.38234> 
5001:Flags[.],ack 1,length 0 

866019 IP 192.168.1.109.38234> 
5001:Flags[P.],seq 1:7,ack 1,1length 6 
866165 IP 192.168.1.108.5001> 
38234:Flags[.],ack 7,1length 0 

028933 IP 192.168.1.109.38234> 
5001:Flags[P.],seq 7:11,ack 1,1length 4 
230034 IP 192.168.1.109.38234> 
5001:Flags[P.],seq 7:11,ack 1,1length 4 
639407 IP 192.168.1.109.38234> 
5001:Flags[P.],seq 7:11,ack 1,1length 4 


.455942 IP 192.168.1.109.38234> 
.5001:Flags[P.],seq 7:11,ack 1,1length 4 


10.18:45:28.092425 IP 192.168.1.109.38234> 
192.168.1.108.5001:Flags[P.],seq 7:11,ack 1,1length 4 

11.18:45:31.362473 IP 192.168.1.109.38234> 
192.168.1.108.5001:Flags[P.],seq 7:11,ack 1,1length 4 

12.18:45:33.100888 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

13.18:45:34.098156 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

14.18:45:35.100887 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 


15.18:45:37.902034 ARP,Reduest who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

16.18:45:38.903126 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

17.18:45:39.901421 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

18.18:45:44.440049 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

19.18:45:45.438840 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

20.18:45:46.439932 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

21.18:45:50.976710 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

22.18:45:51.974134 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 

23.18:45:52.973939 ARP,Request who-has 192.168.1.108 tell 
192.168.1.109,1length 28 


TCP 报 文 段 1~3 是 三 次 握手 建立 连接 的 过 程 ，TCP 报 文 段 4~5 是 
客户 端 发 送 数据 “1234” (应 用 程序 数据 长 度 为 6， 包 括 回 车 、 换 行 两 个 
字符 ， 后 同 ) 及 服务 器 确认 的 过 程 。TCP 报 文 段 6 是 客户 端 第 一 次 发 送 
数据 “12” 的 过 程 。 因 为 服务 器 的 网 线 被 断 开 ， 所 以 客户 端 无 法 收 到 
TCP 报 文 段 6 的 确认 报 文 段 。 此 后 ， 客 户 端 对 TCP 报 文 段 6 执行 了 5 次 重 
传 ， 它 们 是 TCP 报 文 段 7~11， 这 可 以 从 每 个 TCP 报 文 段 的 序号 得 知 。 
此 后 ， 数 据 包 12~23 都 是 ARP 模 块 的 输出 内 容 ， 即 Kongming20 碍 询 
ernest-laptop 的 MAC 地 址 。 


我 们 保留 了 tcpdump 输 出 的 时 间 戳 ， 以 便 推 理 TCP 的 超时 重 传 策 
上 略 。 观 察 TCP 报 文 段 6~11 被 发 送 的 时 间 间 隔 ， 它 们 分 别 为 0.2 s、0.4 
s、0.8 s、1.6 s 和 3.2 s。 由 此 可 见 ，TCP 一 共 执 行 5 次 重 传 ， 每 次 重 传 超 
时 时 间 都 增加 一 倍 (因此 ， 和 TCP 超 时 重 连 的 策略 相似 ) 。 在 5 次 重 传 


均 失 败 的 情况 下 ， 底 层 的 IP 和 ARP 开 始 接管 ， 直 到 telnet 客 户 端 放弃 连 
对 


Linux 有 两 个 重要 的 内 核 参数 与 TCP 超 时 重 传 相 
关 : /proc/sys/net/ipv4/tcp_retries1 和 和 /proc/sys/net/ipv4/tcp_retries2。 前 考 
指定 在 压 层 IP 接 管 之 前 TCP 最 少 执行 的 重 传 次 数 ， 上 默认 值 是 3。 后 者 指 
定 连 接 放弃 前 TCP 最 多 可 以 执行 的 重 传 次 数 ， 默 认 值 是 15 (一 般 对 应 
13~30 min) 。 在 我 们 的 实例 中 ，TCP 超 时 重 传 发 生 了 5 次 ， 连 接 坚持 
的 时 间 是 15 min (可 以 用 date 命 令 来 测量 ) 。 


里 然 超时 会 导致 TCP 报 文 段 重 传 ,但 TCP 报 文 段 的 重 传 可 以 发 生 
在 超时 之 前 ， 即 快速 重 传 ， 这 将 在 下 一 市 中 讨论 。 


3.10” 拥 考 控制 


3.10.1 拥塞 控制 概述 


TCP 模 块 还 有 一 个 重要 的 任务 ， 就 是 提高 网 络 利用 率 ， 降 低 丢 包 
率 ， 并 保证 网 络 资产 对 每 条 数据 流 的 公平 性 。 这 束 古 所 请 的 拥塞 控 
制 。 


TCP 拥 塞 控制 的 标准 文档 是 RFC 5681， 其 中 详细 介绍 了 拥塞 控制 
的 四 个 部 分 : 慢 启 动 (slow start) 、 拥 塞 避免 (congestion 
avoidance) 、 人 快速 重 传 (fast retransmit) 和 快速 恢复 (fast 
recovery) 。 拥 塞 控制 算法 在 Linux 下 有 多 种 实现 ， 比 如 reno 算 法 、 
vegas 算 法 和 cubic 算 法 等 。 它 们 或 者 部 分 或 者 全 部 实现 了 上 壕 四 个 音 
分 。/proc/sys/net/ipv4/tcp_congestion_control 文 件 指 示 机 器 当前 所 使 用 的 
拥塞 控制 算法 。 


拥塞 控制 的 最 终 受 控 变量 是 发 送 端 向 网 络 一 次 连续 写 入 《〈 收 到 其 
中 第 一 个 数据 的 确认 之 前 ) 的 数据 量 ， 我 们 称 为 SWND (Send 
Window， 发 送 窗口 趾 ) 。 不 过 ， 发 送 端 最 终 以 TCP 报 文 段 来 发 送 数 
据 ， 所 以 SWND 限 定 了 发 送 端 能 连续 发 送 的 TCP 报 文 段 数量 。 这 些 TCP 
报 文 段 的 最 大 长 度 〈 仅 指数 据 部 分 ) 称 为 SMSS (Sender Maximum 
Segment Size， 发 送 者 最 大 段 大 小 ) ， 其 值 一 般 等 于 MSS 。 


发 送 端 需要 合理 地 选择 SWND 的 大 小 。 如 果 SWND 太 小 ， 会 引起 
明显 的 网 络 延迟 ， 反之， 如 果 SWND 太 大 ， 则 容易 导致 网 络 拥塞 。 前 
文 提 到 ， 接 收 方 可 通过 其 接收 通告 窗口 (RWND) 来 控制 发 送 端的 
SWND。 但 这 显然 不 够 ， 所 以 发 送 端 引入 了 一 个 称 为 拥塞 窗口 

(Congestion Window，CWND) 的 状态 变量 。 实 际 的 SWND 值 是 
RWND 和 CWND 中 的 较 小 者 。 图 3-11 显 示 了 拥塞 控制 的 输入 和 输出 (可 
见 ， 它 是 一 个 闭环 反馈 控制 )。 


网 络 状况 ， 比 如 RTT， 是 否 丢 包 等 


图 3-11 拥塞 控制 的 输入 和 输出 


3.10.2” 慢 启动 和 拥塞 避免 


TCP 连 接 建 立 好 之 后 ，CWND 将 被 设置 成 初始 值 IW_ (Initial 
Window) ， 其 大 小 为 2~4 个 SMSS。 但 新 的 Linux 内 核 提 高 了 该 初始 
值 ， 以 减 小 传输 清 后 。 此 时 发 送 端 最 多 能 发 送 IW 字 和 的 数据 。 此 后 发 
送 端 每 收 到 接收 端的 一 个 确认 ， 其 CWND 束 按照 式 (3-1) 增加 : 


CWND+=min (N, SMSS) (3-1) 


其 中 N 走 此 次 确认 中 包含 的 之 前 未 被 确认 的 字 世 数 。 这 样 一 来 ， 
CWND 将 按照 指数 形式 扩大 ， 这 如 是 所 谓 的 慢 局 动 。 慢 局 动 算法 的 理 
由 是 ，TCP 模 块 刚 开 始 发 送 数据 时 并 不 知道 网 络 的 实际 情况 ， 需 要 用 一 
种 试探 的 方式 平滑 地 增加 CWND 的 大 小 。 


但 是 如 果 不 施加 其 他 手段 ， 慢 启动 必然 使 得 CWND 很 快 膨胀 (可 
见 慢 启动 其 实 不 慢 ) 并 最 终 导致 网 络 拥塞 。 因 此 TCP 拥 塞 控制 中 定义 了 
另 一 个 重要 的 状态 变量 : 慢 启 动 门限 (slow start threshold size， 
ssthresh) 。 当 CWND 的 大 小 超过 该 值 时 ，TCP 拥 塞 控制 将 进入 拥塞 避 
免 阶段 。 


拥塞 避免 算法 使 得 CWND 按 照 线性 方式 增加 ， 从 而 减缓 其 扩大 。 
RFC 5681 中 所 到 了 如 下 两 种 实现 方式 : 


口 每 个 RTT 时 间 内 按照 式 (3-1) 计算 新 的 CWND， 而 不 论 该 RTT 
时 间 内 发 送 端 收 到 多 少 个 确认 。 


口 每 收 到 一 个 对 新 数据 的 确认 报 文 段 ， 就 按照 式 (3-2) 来 更 新 
CWND。° 


CWND+=SMSS*SMSS/CWND (3-2) 


图 3-12 粗 略 地 朱 述 了 慢 局 动 和 拥塞 避免 发 生 的 时 机 和 区 别 。 该 图 
中 ， 我 们 以 SMSS 为 单位 来 显示 CWND (实际 上 它 是 以 字 节 为 单位 


的 ) ， 以 次 数 为 单位 来 显示 RTT， 这 只 是 为 了 方便 讨论 问题 。 此 外 ， 我 
们 假设 当前 的 ssthresh 是 16SMSS 大 小 (当然 ， 实 际 的 ssthresh 显 然 远 不 
A 


CWND 
(单位 : SMSS) 


16 ssthresh 


0 ] 2 3 4 5 6 7 
RTT〈 单 位 : 次 ) 


图 3-12 慢 启 动 和 拥塞 避免 
以 上 我 们 讨论 了 发 送 端 在 未 检测 到 拥塞 时 所 采用 的 积极 避免 拥塞 
的 方法 。 接 下 来 介绍 拥塞 发 生 时 〈 可 能 发 生 在 慢 启 动 阶段 或 者 拥塞 避 
免 阶段 ) 拥塞 控制 的 行为 。 不 过 我 们 先 要 搞 清 楚 发 送 端 是 如 何 判断 拥 
塞 已 经 发 生 的 。 发 送 端 判断 拥塞 发 生 的 依据 有 如 下 两 个 : 


口传 输 超 时 ， 或 者 说 TCP 重 传 定时 器 溢出 。 


口 接收 到 重复 的 确认 报 文 段 。 


拥塞 控制 对 这 两 种 情况 有 不 同 的 处 理 方 式 。 对 第 一 种 情况 仍然 使 
用 慢 局 动 和 拥塞 避免 。 对 第 二 种 情况 则 使 用 快速 重 传 和 快速 恢复 (如 
果 是 真 的 发 生 拥 塞 的 话 ) ， 这 种 情况 将 在 后 面 讨论 。 注 意 ， 第 二 种 情 
况 如 采 发 生 在 重 传 定时 天 海 出 之 后 ， 则 也 被 拥塞 控制 当成 第 一 种 情况 
来 对 待 。 

如 有 条 发 送 端 检测 到 拥塞 发 生 是 由 于 传输 超时 ， 即 上 述 第 一 种 情 
况 ， 那 么 它 将 执行 重 传 并 做 如 下 调整 : 


ssthresh=max (FlightSize/2, 2*SMSS) (3-3) 


CWMD<=SMSS 


其 中 FlightSize 是 已 经 发 送 但 未 收 到 确认 的 字 市 数 。 这 样 调整 之 
后 ，CWMD 将 小 于 SMSS， 那 么 也 必然 小 于 新 的 慢 启 动 门限 值 ssthresh 
(因为 根据 式 (3-3) ， 它 一 定 不 小 于 SMSS 的 2 倍 ) ， 故 而 拥塞 控制 再 
次 进入 慢 启动 阶段 。 


3.10.3 ”快速 重 传 和 快速 恢复 


在 很 多 情况 下 ， 发 送 端 都 可 能 接收 到 重复 的 确认 报 文 段 ， 比 如 TCP 
报 文 段 丢 失 ， 或 者 接收 端 收 到 乱 序 TCP 报 文 段 并 重 排 之 等 。 拥 塞 控制 算 
法 需要 判断 当 收 到 重复 的 确认 报 文 段 时 ， 网 络 是 否 真 的 发 生 了 拥塞 ， 


或 者 说 TCP 报 文 段 症 否 真 的 丢失 了 。 具 体 做 法 是 :发送 逆 如 果 连 续 收 到 
3 个 重复 的 确认 报 文 段 ， 束 认为 旦 拥塞 发 生 了 “。 然 后 它 司 用 快速 重 传 和 
快速 恢复 算法 来 处 理 拥塞 ， 过 程 如 下 : 


1) 当 收 到 第 3 个 重复 的 确认 报 文 段 时 ， 按 照 式 (3-3) 计算 
ssthresh， 然 后 立即 重 传 丢失 的 报 文 段 ， 并 按照 式 (3-4) 设置 CWND。 


CWND=ssthresh+3*SMSS (3-4) 


2) 每 次 收 到 1 个 重复 的 确认 时 ， 设 置 CWND=CWND+SMSS。 此 时 
发 送 端 可 以 发 送 新 的 TCP 报 文 段 (如 果 新 的 CWND 人 允许 的 话 ) 。 


3) 当 收 到 新 数据 的 确认 时 ， 设 置 CWND=ssthresh (ssthresh 是 新 的 
慢 启 动 门限 值 ， 由 第 一 步 计 算得 到 ) 。 


快速 重 传 和 快速 恢复 完成 之 后 ， 拥 塞 控制 将 恢复 到 拥塞 避免 阶 
段 ， 这 一 点 由 第 3 步 操作 可 得 知 。 


[1] 这 里 所 说 的 窗口 实际 上 是 指 窗口 的 大 小 ， 这 里 只 是 保留 了 行业 的 习 


惯 说 法 。 


第 4 章 ”TCP/IP 通 信和 案例 : 访问 Internet 上 的 Web 服 


第 
珀 局 
3 


在 第 1 章 中 ， 我 们 简单 地 讨论 了 TCP/IP 协 议 族 各 层 的 功能 和 部 分 协 
议 ， 以 及 它们 之 间 是 如 何 协作 完成 网 络 通信 的 。 在 第 2 章 和 第 3 章 中 ， 
我 们 详细 地 探讨 了 了 协议 和 TCP 协 议 。 本 章 ， 我 们 分 析 一 个 完整 的 
TCP/IP 通 信 的 实例 一 一 访问 Internet 上 的 Web 服 务 器 ， 通 过 该 实例 把 这 
些 知识 串联 起 来 。 选 择 使 用 Web 服 务 器 展开 讨论 的 理由 是 : 


口 mternet 上 的 Web 服 务 需 随处 都 可 以 获得 ， 我 们 通过 浏览 喜 访 问 任 
何 一 个 网 站 都 是 在 与 Web 服 务 套 通 信 。 


口 本 书后 续 章 节 将 编写 简单 的 Web 服 务 器 程序 ， 因 此 先 学 习 其 工作 
原理 是 有 好 处 的 。 


Web 客 户 端 和 服务 器 之 间 使 用 HTTP 协 议 通 信 。HTTP 协 议 的 内 容 相 
当 广 泛 ， 涵 盖 了 网 络 应 用 层 协议 需要 考虑 的 诸多 方面 。 因 此 ， 学 习 
HTTP 协 议 对 应 用 层 协议 设计 将 大 有 神 益 。 


4.1 ”实例 总 图 


我 们 按照 如 下 方法 来 部 署 通信 实例 : 在 Kongming20 上 运行 wget 客 
户 端 程序 ， 在 ernest-laptop 上 运行 squid 代 理 服 务 器 程序 。 客 户 端 通 过 代 
理 服务 器 的 中 转 ， 获 取 Internet 上 的 主机 www.baidu.com 的 百 页 文档 
index.html， 如 图 4-1 所 示 。 


Kongming20 ernest-laptop www.baidu.com 
HTTP 请 求 / HTTP 请 求 / 应 答 


图 4-1 通过 代理 服务 器 访问 Internet 上 的 Web 服 务 器 


由 图 4-1 可 见 ，wget 客 户 端 程序 和 代理 服务 器 之 间 ， 以 及 代理 服务 
器 与 Web 服 务 器 之 间 都 是 使 用 HTTP 协 议 通 信 的 。HTTP 协 议 是 一 种 应 用 
层 协议 ， 它 默认 使 用 的 传输 层 协 议 是 TCP 协 议 。 我 们 将 在 后 文中 简单 讨 
论 HTTP 协 议 。 


为 了 将 ernest-laptop 设 置 为 Kongming20 的 HTTP 代理 服务 右 ， 我 们 
需要 在 Kongming20 上 设置 环境 变量 http_proxy: 


$export http_proxy="ernest-laptop:3128"# 人 在 Kongming20 上 执行 


其 中 ，3128 坪 squid 服务器 默认 使 用 的 端口 号 (可 以 通过 ]sof 命 令 查 
看 服务 器 程序 监听 的 端口 号 ， 见 第 17 章 ) 。 设 置 好 环境 变量 之 后 ， 
Kongming20 访 问 任何 Internet 上 的 Web 服 务 右 时 ， 其 HTTP 请 求 都 将 首先 
发 送 至 ernest-laptop 的 3128 端 口 。 


squid 代 理 服务 郁 接 收 到 wget 客 户 端 的 HTTP 请 求 之 后 ， 将 催 单 地 修 
改 这 个 请 求 ， 然 后 把 它 发送 给 最 终 的 目标 Web 服 务 器 。 有 既然 代理 服务 右 
访问 的 是 Internet 上 的 机 器 ， 可 以 预见 它 发 送 的 IP 数 据 报 部 将 经 过 路 由 
如 的 中 加 ， 这 一 护 也 体现 在 图 4-1 中 了 。 


4.2 部署 代理 服务 顺 


由 于 通信 实例 中 使 用 了 HTTP 代 理 服务 器 《squid 程 序 ) ， 所 以 先 简 
单 介绍 一 下 HTTP 代 理 服务 右 的 工作 原理 ， 以 及 如 何 部 署 squid 代 理 服 务 


器 。 
4.2.1 HTTP 代 理 服务 絮 的 工作 原理 


在 HTTP 通 信和 链 上 ， 客 户 端 和 目标 服务 右 之 间 通 党 存在 某 些 中 转 代 
理 服 务 右 ， 它 们 提供 对 目标 人 资源 的 中 转 访 问 。 一 个 HTTP 请 求 可 能 被 多 
个 代理 服务 紫 轩 发， 后面 的 服务 占 称 为 前 面 服务 右 的 上 游 服 务 絮 。 代 
理 服 务 右 按照 其 使 用 方式 和 作用 ， 分 为 正 同 代理 服务 厦 、 反 向 代理 服 
务 占 和 透明 代理 服务 絮 。 


正 向 代理 要 求 客 户 端 自己 设置 代理 服务 器 的 地 址 。 客 户 的 每 次 请 
求 都 将 直接 发 送 到 该 代理 服务 左 ， 并 由 代理 服务 万 来 请 求 目 标 唤 源 。 
比如 处 于 防火 墙 内 的 局 域 网 机 器 要 访问 Intemet， 或 者 要 访问 一 些 被 屏 
病 掉 的 国外 网 站 ， 就 需要 使 用 正 向 代理 服务 器 。 


反 回 代理 则 被 设置 在 服务 瑚 咒 ， 因 而 客户 端 无 须 进行 任何 设置 。 
反 向 代理 是 指 用 代理 服务 句 来 接收 Internet 上 的 连接 请 求 ， 然 后 将 请 求 
转发 给 内 部 网 络 上 的 服务 器 ， 并 将 从 内 部 服务 右上 得 到 的 结果 返回 给 


客户 端 。 这 种 情况 下 ， 代 理 服务 器 对 外 就 表现 为 一 个 真实 的 服务 器 。 
各 大 网 站 通 凋 分 区 域 设置 了 多 个 代理 服务 问 ， 所 以 在 不 同 的 地 方 ping 同 
一 个 域名 可 能 得 到 不 同 的 IP 地 址 ， 因 为 这 些 IP 地 址 实际 上 是 代理 服务 器 
的 IP 地 址 。 图 4-2 显 示 了 正 辣 代 理 服务 上 融和 反问 代理 服务 器 在 HTTP 通 信 
链 上 的 逻辑 位 置 。 


图 4-2 中 ， 正 癌 代 理 服 务 器 和 客户 端 主机 处 于 同一 个 逻辑 网 络 中 。 
该 逻辑 网 络 可 以 是 一 个 本 地 LAN， 也 可 以 是 一 个 更 大 的 网 络 。 反 向 代 
理 服 务 絮 和 真正 的 Web 服 务 絮 也 位 于 同一 个 逻辑 网 络 中 ， 这 通 弟 由 提供 
网 站 的 公司 来 配置 和 管理 。 


逻辑 上 的 内 部 网 络 
逻辑 上 的 内 部 网 络 服务 器 A 
反 向 代理 
客户 端 一 服务 器 。 


服务 器 B 


图 4-2 HTTP 通 信 链 上 的 代理 服务 天 


透明 代理 只 能 设置 在 网 天 上。 用 户 访问 Internet 的 数据 报 必 然 都 经 
过 网 关 ， 如 宁 在 网 关上 设置 代理 ， 则 该 代理 对 用 户 来 说 显然 是 透明 
的 。 透 明代 理 可 以 看 作 正 回 代 理 的 一 种 特殊 情况 。 


代理 服务 器 通常 还 提供 缓存 目标 资源 的 功能 〈 可 选 ) ， 这 样 用 户 
下 次 访问 同一 资源 时 速度 将 很 快 。 优 秀 的 开源 软件 squid、varnish 都 是 


提供 了 缓存 能 力 的 代理 服务 絮 软 件 ， 其 中 squid 支 持 所 有 代理 方式 ， 而 
varnish 仪 能 用 作 反 同 代 理 。 


4.2.2 ”部 署 squid 代 理 服 务 器 


现在 我 们 在 ernest-laptop 上 部 署 squid 代 理 服务 器 。 这 个 过 程 很 简 
单 ， 只 需 修 改 squid 服 务 器 的 配置 文件 /etc/squid3/squid.conf， 在 其 中 加 
入 如 下 两 行 代码 (需要 root 权 限 ， 且 应 该 加 在 合适 的 位 置 ， 详 情 可 参考 
其 他 类 似 条 目的 设置 ) : 


acl localnet Src 192.168.1.0/24 
http_access allow localnet 


这 两 行 代码 的 含义 是 : 允许 网 络 192.168.1.0 上 的 所 有 机 器 通过 该 代 
理 服务 器 来 访问 Web 服 务 器 。 其 中 ,，“192.168.1.0/24” 是 CIDR (Classless 
Inter-Domain Routing， 无 类 域 间 路 由 ) 风格 的 IP 地 址 表示 方法 :“/* 前 
的 部 分 指定 网 络 的 IP 地 址 ，“/”* 后 的 部 分 则 指定 子 网 掩 码 中 “1” 的 位 数 。 
对 IPv4 而 言 ， 上 述 表 示 等 价 于 “192.168.1.0/255.255.255.0” (IP 地 址 / 子 网 
掩 码 ) 。 


我 们 通过 上 面 的 两 行 代码 简单 地 配置 了 squid 的 访问 控制 。 但 实际 
应 用 中 ，squid 提 供 更 多 、 更 安全 的 配置 ， 比 如 用 户 验 证 等 。 


接 下 来 在 ernest-laptop 上 执行 如 下 命令 ， 以 重启 squid 服 务 器 ; 


$sudo service squid3 restart 
*Restarting Squid HTTP Proxy 3.0 squid3[OK] 


service 是 一 个 脚本 程序 (/usr/sbin/service) ， 它 为 /etc/init.d/ 目 录 下 
的 众多 服务 器 程序 (比如 httpd、vsftpd、sshd 和 mysqld 等 ) 的 启动 
(start) 、 停 止 (stop) 和 重启 (restart) 等 动作 提供 了 一 个 统一 的 管 
理 。 现 在 ，Linux 程 序 员 已 经 越 来 越 偏 各 于 使 用 service 脚 本 来 管理 服务 
器 程序 了 。 


4.3 ”使 用 tcpdump 抓 取 传输 数据 包 


在 执行 wget 命 令 前 ， 我 们 首先 应 删除 ermest-laptop 的 ARP 高 速 缓存 
中 路 由 器 对 应 的 项 ， 以 便 观 察 TCP/IP 通 信 过 程 中 ARP 协 议 何 时 起 作 
用 。 然 后 ， 使 用 tcpdump 命 令 抓 取 整 个 通信 过 程 中 传输 的 数据 包 。 完 整 
的 操作 过 程 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 使 用 wget 抓 取 网 页 


$sudo arp-d 192.168.1.1 

$sudo tcpdump-s 2000-i etho-ntXx' (src 192.168.1.108)or(dst 
192.168.1.108)or(arp)， 

$wget--header="Connection:close"http://www.baidu.com/index.html 

--2012-07-03 00:51:12--http://www.baidu.com/index.html 

Resolving ernest-laptop...192.168.1.108 

Connecting to ernest-laptop|192.168.1.108|:3128...connected. 

Proxy request sent,awaiting response...200 OK 

Length:8024(7.8K)[text/html] 

Saving to:“index.html” 

100%[======================= 放 ]8, 024--.-K/s in 0.001S 

2012-07-03 00:51:12(8.76 MB/S)-“ index,.htmL”saved[8024/8024] 


wget 命 令 的 输出 显示 ，HTTP 请 求 确实 是 先 被 送 至 代理 服务 器 的 
3128 端 口 ， 并 且 代 理 服 务 恬 正确 地 返回 了 文件 index.html 的 内 容 。 


这 次 通信 的 完整 tcpdump 输 出 内 容 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 ”访问 Internet 上 的 Web 服 务 坑 


1.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[S],seq 
227192137, length 0 

2.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[S.],sed 
1084588508,ack 227192138, Jength 0 

3.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
1,1length 0 

4.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[P.],sedq 
1:137,ack 1,length 136 

5.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],ack 
137, length 0 

6.ARP, Request who-has 192.168.1.1 tell] 192.168.1.108,1length 28 

7.ARP,Reply 192.168.1.1 is-at 14:e6:e4:93:5b:78,1length 46 

8.IP 192.168.1.108.46149>219.239.26.42.53:59410+A? 
www.baidu.com. (31) 

9.IP 219.239.26.42.53>192.168.1.108.46149:59410 3/4/0 CNAME 
www.a.shifen.com.,A 119.75.218.77,A 119.75.217.56(162) 

10.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[S],seq 
1084002207, length 0 

11.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[S.1],sedq 
4261071806, ack 1084002208, length 0 

12.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
1, Length 0 

13.IP 192.168.1.108.34538>119.75.218.77.80:FlagsLP.],sedq 
1:226,ack 1,length 225 

14.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[.],ack 
226, length 0 

15.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[P.],seq 
1:380,ack 226,1length 379 

16.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
380, length 0 

17.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[.],seq 
380:1820,ack 226, length 1440 

18.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
1820, length 0 

19.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[.],seq 
1820:3260,ack 226, length 1440 

20.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
3260, length 0 

21.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[P.],sedq 
3260:4700,ack 226, length 1440 

22.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
4700, length 0 

23.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],sed 
1:1449,ack 137, length 1448 

24.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[P.],seq 
1449:2166, ack 137,1length 717 

25.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],sed 
2166:3614,ack 137, length 1448 


26.IP 119.75.218.77.80>192.168.1.108.34538:Flags[.],sed 
4700:6140,ack 226, length 1440 

27.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
6140, length 0 

28.IP 119.75.218.77.80~>192.168.1.108.34538:Flags[.],seq 
6140:7580,ack 226, length 1440 

29.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[.],ack 
7580, length 0 

30.IP 119.75.218.77.80>192.168.1.108.34538:Flags[FP.],seq 
7580:8404,ack 226, length 824 

31.IP 192.168.1.108.34538>>119.75.218.77.80:Flags[F.1],sedq 
226,ack 8405,1length 0 

32.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
1449, length 0 

33.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],sed 
3614:6510,ack 137,1length 2896 

34.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
2166, length 0 

35.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],sed 
6510:7958,ack 137, Length 1448 

36.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[FP.],sed 
7958:8523, ack 137,1length 565 

37.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
3614, length 0 

38.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
5062, length 0 

39.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
6510, length 0 

40.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[.],ack 
7958, length 0 

41.IP 119.75.218.77.80>192.168.1.108.34538:Flags[.],ack 
227, length 0 

42.IP 192.168.1.109.40988>192.168.1.108.3128:Flags[F.],seq 
137,ack 8524,1length 0 

43.IP 192.168.1.108.3128>192.168.1.109.40988:Flags[.],ack 
138, length 0 


我 们 一 共 抓 取 了 43 个 数据 包 。 与 前 面 章 节 的 讨论 不 同 ， 这 些 数据 
包 不 是 一 对 客户 端 和 服务 郁 之 间 交 换 的 内 容 ， 而 是 两 对 客户 端 和 服务 
器 (wget 客户 端 和 代理 服务 器 ， 以 及 代理 服务 器 和 目标 Web 服 务 器 ) 
之 间 通 信 的 全 部 内 容 。 所 以 ，tcpdump 的 输出 把 这 两 组 通信 的 内 容 交 织 


在 一 起 。 但 为 了 讨论 问题 的 方便 ， 我 们 将 这 43 个 数据 包 按 照 其 逻辑 关 
系 分 为 如 下 4 个 部 分 : 


口 代理 服务 絮 访 问 DNS 服 务 絮 以 查询 域名 www.baidu.com 对 应 的 IP 
地 址 ， 包 括 数 据 包 8、9。 


口 代理 服务 器 查询 路 由 器 MAC 地 址 的 ARP 请 求 和 应 答 ， 包 括 数据 
包 6、7。 


口 wget 客 户 端 (192.168.1.109) 和 代理 服务 器 (192.168.1.108) 之 
间 的 HTTP 通 信 ， 包 括 数据 包 1~~5、23~25、32~40、42 和 43。 


口 代 理 服务 器 和 Web 服 务 器 (119.75.218.77) 之 间 的 HTTP 通 信 ， 
包括 数据 包 10~-22、26~-31 和 41。 

下 面 我 们 将 依次 讨论 前 3 个 部 分 ， 第 4 个 部 分 与 第 3 个 部 分 的 内 容 基 
本 相似 ， 不 再 警 述 。 


4.4 访问 DNS 服务 器 


数据 包 8、9 表 示 代 理 服务 器 ernest-laptop 加 DNS 服务 器 
4219.239.26.42， 首 选 DNS 服务 器 的 耳 地 址 ， 见 1.6.2 节 ) 查询 域名 
www.baidu.com 对 应 的 JP 地 址 ， 并 得 到 了 回复 。 该 回复 包括 一 个 主机 别 

名 (www.a.shifen.com) 和 两 个 IP 地 址 (119.75.218.77 和 
119.75.217.56) 。 代 理 服务 器 执行 DNS 查 询 的 完整 过 程 如 图 4-3 所 示 。 


squid 代 理 
服务 器 


读 取 /etc/resolv.conf， 获 
取 DNS 服 务 器 的 卫 地 址 


219.239.26.42 


UDP 模块 将 目标 端口 号 53 和 源 端 
口号 46149 加 入 UDP 数据 报头 部 


219.239.26.42 
了 模块 将 源 卫 地址 和 DNS 服务 器 的 


IP 地 址 加 入 IP 头 部 
192.168.1.1 
ARP 驱动 程序 将 路 由 器 的 MAC 
aa 地 址 加 入 以 太 网 帧 头 部 
ARP 广 播 ， 查 询 


1 
1 
! “192.169.1.1 的 MAC 地 址 


以 太 网 


FET 4 ~ TNT -未 “AT 


图 4-3 DNS 查询 


squid 程 序 通过 读 取 /etc/resolvconf 文 件 获得 DNS 服务 器 的 也 地 址 
( 见 1.6.2 节 ) ， 然 后 将 控制 权 传递 给 内 核 中 的 UDP 模块 。UDP 模 块 将 
DNS 查询 报 文 封闭 成 UDP 数据 报 ， 同 时 把 源 端口 号 和 目标 端口 号 加 入 
UDP 数据 报头 部 ， 然 后 UDP 模块 调用 IP 服 务 。 了 PP 模块 则 将 UDP 数据 报 雪 
装 成 IP 数 据 报 ， 并 把 源 端 IP 地 址 (192.168.1.108) 和 DNS 服务 器 的 IP 地 
址 加 入 IP 数 据 报头 部 。 接 下 来 ，IP 模 块 查询 路 由 表 以 决定 如 何 发 送 该 IP 
数据 报 。 根 据 路 由 策略 ， 目 标 IP 地 址 (219.239.26.42) 仅 能 匹配 路 由 表 
中 的 默认 路 由 项 ， 因 此 该 IP 数 据 报 先 补 发送 至 路 由 器 (IP 地 址 为 
192.168.1.1) ， 然 后 通过 路 由 器 来 转发 。 因 为 ernest-laptop 的 ARP 绥 存 
中 没有 与 路 由 器 对 应 的 缓存 项 (我 们 手动 将 其 删除 了 ) ， 所 以 ernest- 
laptop 需 要 发 起 一 个 ARP 广 播 以 查询 路 由 器 的 卫 地 址 ， 而 这 正 是 数据 包 6 
描述 的 内 容 。 路 由 器 则 通过 ARP 应 答 告诉 ernest-laptop 自 己 的 MAC 地 址 
是 14:e6:e4:93:5b:78， 如 数据 包 7 所 示 。 最 终 ， 以 太 网 驱动 程序 将 人 P 数 据 
报 封装 成 以 太 网 帧 发 送 给 路 由 器 。 此 后 ， 代 理 服 务 器 再 次 发 送 数据 到 
Internet 时 将 不 再 需要 ARP 碍 询 ， 因 为 ernest-laptop 的 ARP 高 速 缓存 中 已 
经 记录 了 路 由 器 的 IP 地 址 和 MAC 地 址 的 映射 关系 。 


需要 指出 的 是 ， 虽 然 IP 数 据 报 是 先 发 送 到 路 由 器 ， 再 由 它 转发 给 
目标 主机 ， 但 是 其 头 部 的 目标 IP 地 址 却 是 最 终 的 目标 主机 (DNS 服务 
器 ) 的 IP 地 址 ， 而 不 是 中 转 路 由 器 的 IP 地 址 (192.168.1.1) 。 这 说 明 ， 
IP 汰 部 的 源 端 IP 地 址 和 目的 端 IP 地 址 在 转发 过 程 中 是 始终 不 变 的 (一 种 


例外 是 源 路 由 选择 ) 。 但 帧 头 部 的 源 端 物理 地 址 和 目的 端 物理 地 址 在 
转发 过 程 中 则 是 一 直 在 变化 的 。 


4.5 ”本 地 名 称 公 询 


一 般 来 说 ， 通 过 域名 来 访问 Internet 上 的 某 台 主机 时 ， 需 要 使 用 
DNS 服 务 来 获取 该 主机 的 IP 地 址 。 但 如 果 我 们 通过 主机 名 来 访问 本 地 
局 域 网 上 的 机 器 ， 则 可 通过 本 地 的 静态 文件 来 获得 该 机 器 的 人 P 地 址 。 


Linux 将 目标 主机 名 及 其 对 应 的 IP 地 址 存储 在 /etc/hosts 配 置 文 件 
中 。 当 需要 碍 询 某 个 主机 名 对 应 的 卫 地 址 时 ， 程 序 将 首先 检查 这 个 文 
件 。Kongming20 上 /etc/hosts 文 件 的 内 容 如 下 (笔者 手动 修改 过 ) : 


127.0.0.1 localhost 
192.168.1.109 Kongming20 
192.168.1.108 ernest-laptop 


其 中 第 一 项 指出 本 地 回路 地 址 127.0.0.1 的 名 称 是 localhost， 第 二 项 
和 第 三 项 则 分 别 描述 了 Kongming20 和 ernest-laptop 的 了 地 址 及 对 应 的 主 
机 各。 


代码 清单 4-1 中 ，wget 命 令 输出 “Resolving ernest- 
laptop.…192.168.1.108”， 即 它 成 功 地 解析 了 主机 名 ernest-laptop 对 应 的 
IP 地 址 ， 原 因 如 下 : 当 wget 访 问 某 个 Web 服务 器 时 ， 它 移 读 取 环 境 变 
量 http_proxy。 如 果 该 环境 变量 被 设置 ， 并 且 我 们 没有 阻止 wget 使 用 代 
理 服务 ， 则 wget 将 通过 http_proxy 指 定 的 代理 服务 器 来 访问 Web 服 务 。 


但 http_proxy 环 境 变 量 中 包含 主机 名 ernest-laptop， 因 此 wget 将 首先 读 
取 /etchosts 配 置 文件 ， 试 图 通过 它 来 解析 主机 名 ernest-laptop 对 应 的 了 
地 址 。 其 结果 正如 wget 的 输出 所 示 ， 解 析 成 功 。 


如 果 程 序 在 /etc/hosts 文 件 中 未 找到 目标 机 器 名 对 应 的 IP 地 址 ， 它 
将 求助 于 DNS 服 务 。 


用 户 可 以 通过 修改 /etc/host.conf 文 件 来 目 定 义 系 统 解 析 主 机 名 的 方 
法 和 顺序 (一 般 是 先 访问 本 地 文件 /etc/hosts， 再 访问 DNS 服 务 ) ， 
Kongming20 上 的 该 文件 内 容 如 下 : 


order hosts,bind 
multi on 


其 中 第 一 行 表示 优先 使 用 /etc/hosts 文 件 来 解析 主机 名 (hosts) ， 
失败 后 再 使 用 DNS 服务 (bind) 。 第 二 行 表示 如 果 /etc/hosts 文 件 中 一 
个 主机 名 对 应 多 个 IP 地 址 ， 那 么 解析 的 结果 就 包含 多 个 IP 地 
址 。/etc/host'conf 文 件 通常 仅 包 含 这 两 行 ， 但 它 文 持 更 多 选项 ， 具 体 使 
用 请 参考 其 man 手 册 。 


标准 文档 RFC 1123 指 出 ， 网 络 上 的 主机 都 应 该 实现 一 个 简单 的 本 
地 名 称 查询 服务 。 


4.6 HTTP 通信 


为 了 方便 讨论 ， 我 们 将 wget 客 户 端 和 代理 服务 器 之 间 的 通信 过 程 
画 成 图 4-4 所 示 的 TCP 时 序 图 。 


192.168.1.109.40988 192.168.1.108.3128 


seq 227192137 (SYN) 


seq 1084588508, ack 227192138 (SYN) 2 
3 
4 Seq 1:37, ack 1 
5 
seq 1:1449, ack 137 23 
seq 1449:2166, ack 137 24 
seq 2166:3614, ack 137 25 
3 ack 1449 
seq 3614:6510, ack 137 33 
seq 6510:7958, ack 137 35 
seq 7958: 8523, ack 137 (FIN) 5 
38 | 
| 
40 ack 7958 
42 seq 137, ack 8524 (FIN) 
| 4 


图 4-4 wsget 客 户 端 和 squid 服 务 器 之 间 的 TCP 通 信 


首先 应 该 注意 的 是 ，TCP 连 接 从 建立 到 关闭 的 过 程 中 ， 客 户 端 仅 给 
服务 器 发 送 了 一 个 HTTP 请 求 〈 即 TCP 报 文 段 4) ， 该 请 求 的 长 度 为 136 
字 节 〈 见 代码 清单 4-2 中 TCP 报 文 段 4 的 length 值 ) 。 代 理 服务 器 则 用 6 个 


TCP 报 文 段 (23、24、25、33、35 和 36) 给 客户 端 返 回 了 总 长 度 为 8522 
字 节 〈 这 可 以 从 对 方 的 最 后 一 个 确认 报 文 段 42 的 确认 值 计 算得 到 ， 考 
虑 同步 报 文 段 和 结束 报 文 段 各 占用 一 个 序号 ) 的 HITP 应 答 。 客 户 端 使 
用 了 7 个 TCP 报 文 段 (32、34、37、38、39、40 和 42) 来 确认 这 8522 字 
节 的 HTTP 应 答 数 据 。 


下 面 我 们 简单 分 析 一 下 这 136 字 太 的 HTTP 请 求 和 8522 字 节 的 HTTP 
应 答 的 部 分 主要 内 容 (开启 tcpdump 的 -X 选 项 来 查看 ) 。 


4.6.1 HTTP 请 求 


HTTP 请 求 的 部 分 内 容 如 下 : 


GET http://www.baidu.com/index.html HTTP/1.0 
User-Agent :Wget/1.12(1inux-gnu) 

Host :www.baidu.com 

Connection:close 


第 1 行 是 请 求 行 。 其 中 “GET”* 是 请 求 方法 ， 表 示 客 户 端 以 只 读 的 方 
式 来 申请 资源 。 常 见 的 HTTP 请 求 方法 有 9 种 ， 如 表 4-1 所 示 。 


表 4-1 HTTP 请 求 方法 


请 求 方法 会 义 

GET 申请 获取 资源 ， 而 不 对 服务 器 产生 任何 其 他 影响 

pe 和 GET 方法 类 似 ， 不 过 仅 要 求 服务 器 返回 头 部 信息 ， 而 不 需要 传输 任 
何 实 际 内 容 

pp 客户 端 向 服务 器 提交 数据 的 方法 。 这 种 方法 会 影响 服务 器 : 服务 器 可 能 
根据 收 到 的 数据 动态 创建 新 的 资源 ， 也 可 能 更 新 原 有 的 资源 

PUT 上 传 某 个 资源 

DELETE 删除 某 个 资源 

区 和 要 求 目 标 服 务 器 返回 原始 HTTP 请 求 的 内 容 。 它 可 用 来 查看 中 间 服 务 器 
(比如 代理 服务 器 ) 对 HTTP 请 求 的 影响 

UN 查看 服务 器 对 某 个 特定 URL 都 支持 哪些 请 求 方法 。 也 可 以 把 URL 设置 
为 *， 从 而 获得 服务 器 支持 的 所 有 请 求 方法 

CONNECT 用 于 某 些 代理 服务 器 ， 它 们 能 把 请 求 的 连接 转化 为 一 个 安全 隧道 

PATCH 对 某 个 资源 做 部 分 修改 


这 些 方法 中 ，HEAD、GET、OPTIONS 和 TRACE 被 视 为 安全 的 方 
法 ， 因 为 它们 只 是 从 服务 器 获得 资源 或 信息 ， 而 不 对 服务 器 进行 任何 
修改 。 而 POST、PUT、DELETE 和 PATCH 则 影响 服务 器 上 的 资源 。 


另 一 方面 ，GET、HEAD、OPTIONS、TRACE、PUT 和 DELETE 
等 请 求 方法 被 认为 是 等 究 的 (idempotent) ， 即 多 次 连续 的 、 重 复 的 请 
求 和 只 发 送 一 次 该 请 求 具 有 完全 相同 的 效果 。 而 POST 方 法 则 不 同 ， 连 
续 多 次 发 送 同 样 一 个 请 求 可 能 进一步 影 啊 服务 絮 上 的 资源 。 


值得 一 提 的 是 ，Linux 上 提供 了 几 个 命令 : HEAD、GET 和 POST 。 
其 含义 基本 与 HTTP 协议 中 的 同名 请 求 方法 相同 。 它 们 适合 用 来 快速 测 
试 Web 服 务 器 。 


“http://www. baidu.com/index.html” 是 目标 资源 的 URL。 其 
中 “http” 古 所 请 的 scheme， 表 示 获 取 目 标 资源 需要 使 用 的 应 用 层 协议 。 


其 他 篆 见 的 scheme 还 有 ftp、rtsp 和 file 等 。“www.baidu.com” 指 定 资源 所 
在 的 目标 主机 。“index.html” 指 定 资 源 文 件 的 名 称 ， 这 里 指 的 是 服务 絮 
根 目录 (站 点 的 根 目 录 ， 而 不 是 服务 器 的 文件 系统 根 目录 “/”) 中 的 索 
引文 件 。 


“HTTP/1. 0” 表 示 客 户 端 (wget 程序 ) 使 用 的 HTTP 的 版 本 号 是 1.0。 
目前 的 主流 HTTP 版 本 是 1.1。 


HTTP 请 求 内 容 中 的 第 2~4 行 都 是 HITP 请 求 的 头 部 字段 。 一 个 
HTTP 请 求 可 以 包含 多 个 头 部 字段 。 一 个 头 部 字段 用 一 行 表示 ， 包 含 字 
段 名 称 、 冒 号 、 空 格 和 字段 的 值 。HTTP 请 求 中 的 头 部 字段 可 按 任意 顺 
序 排列 。 


“User-Agent:Wget/1. 12(linux-gnu)” 表 示 客 户 端 使 用 的 程序 是 wget 。 


“Host:www. baidu.com” 表 示 目 标 主 机 名 是 www.baidu.com。HTTP 
协议 规定 HTTP 请 求 中 必须 包含 的 头 部 字段 束 是 目标 主机 名 。 


“Connection:close” 是 我 们 执行 wget 命 令 时 传 入 的 〈 见 代码 清单 4- 

1) ， 用 以 告诉 服务 器 处 理 完 这 个 HTTP 请 求 之 后 就 关闭 连接 。 在 旧 的 

HTTP 协 议 中 ，Web 和 客户 端 和 Web 服 务 右 之 间 的 一 个 TCP 连 接 只 能 为 一 
个 HITP 请 求 服务 。 当 处 理 完 客户 的 一 个 HTTP 请 求 之 后 ，Web 服 务 硕 了 驶 
(主动 ) 将 TCP 连 接 关 闭 了 。 此 后 ， 同 一 客户 如 果 要 再 发 送 一 个 HTTP 
请 求 的 话 ， 必 须 与 服务 器 建立 一 个 新 的 TCP 连 授 。 也 就 是 说 ， 同 一 个 客 


户 的 多 个 连续 的 HTTP 请 求 不 能 共用 同一 个 TCP 连 接 ， 这 称 为 短 连接 。 
长 连接 与 之 相反 ， 是 指 多 个 请 求 可 以 使 用 同一 个 TCP 连 接 。 长 连接 在 编 
程 上 稍微 复杂 一 些 ， 但 性 能 上 却 有 很 大 提高 : 它 极 大 地 减少 了 网 络 上 
为 建 并 TCP 连 接 导致 的 负荷 ， 同 时 对 每 次 请 求 而 言 缩减 了 人 处理 时 间 。 

HTTP 请 求 和 应 答 中 的 “Connection” 头 部 字段 就 是 专门 用 于 告诉 对 方 一 
个 请 求 完 成 之 后 该 如 何 处 理 连 接 的 ， 比 如 立即 关闭 连接 《该 头 部 字段 
的 值 为 “close”) 或 者 保持 一 段 时 间 以 等 待 后 续 请 求 “该 头 部 字段 的 值 
为 “keep-alive”) 。 当 用 浏览 器 访问 一 个 网 页 时 ， 读 者 不 妨 使 用 netstat 命 
令 来 查看 浏览 器 和 Web 服 务 器 之 间 的 连接 是 否 是 长 连接 ， 以 及 该 连接 维 
持 了 多 长 时 间 。 


在 所 有 头 部 字段 之 后 ，HTTP 请 求 必须 包含 一 个 空 行 ， 以 标识 头 部 
字段 的 结束 。 请 求 行 和 每 个 头 部 字段 都 必须 以 <CR> <LF> 结 束 ( 回 
车 符 和 换行 符 ) ， 而 空 行 则 必须 只 包含 一 个 <CR> <LF> ， 不 能 有 其 


他 字符 ， 甚 至 是 空白 字符 。 


在 空 行 之 后 ，HTTP 请 求 可 以 包含 可 远 的 消 居 体 。 如 果 消 居 体 非 
空 ， 则 HTTP 请 求 的 头 部 字段 中 必须 包含 摘 述 该 消息 体 长 度 的 字 
段 “Content-Length”。 我 们 的 实例 只 是 获取 目标 服务 器 上 的 资源 ， 所 以 


没有 消 妃 体 。 


4.6.2 ”HTTP 应 答 


HTTP 应 答 的 部 分 内 容 如 下 : 


HTTP/1.0 200 OK 

Server :BWS/1.0 

Content-Length:8024 

Content-Type:text/html;charset=gbk 

Set- 
Cookie:BAIDUID=A5B6C72D68CF639CE8896FD79AQ03FBD8:FG=1;expires=Wed,04- 
JUL-42 00:10:47 GMT;path=/;domain=.baidu.com 

Via:1.0 localhost(squid/3.0 STABLE18) 


第 一 行 是 状态 行 。“HTTP/1.0” 是 服务 器 使 用 的 HTTP 协 议 的 版 本 
号 。 通 常 ， 服 务 器 需要 使 用 和 客户 端 相 同 的 HTTP 协 议 版 本 。“200 
OK” 是 状态 码 和 状态 信息 。 常 见 的 状态 码 和 状态 信息 及 其 含义 如 表 4-2 
所 示 。 


表 4-2 HTTP 状态 码 和 状态 信息 及 其 含义 


状态 类 型 状态 码 和 状态 信息 含 义 

服务 器 收 到 了 客户 端的 请 求 行 和 头 部 信息 ， 告 诉 
客户 端 继续 发 送 数 据 部 分 。 客 户 端 通常 要 先 发 送 
Expect: 100-continue 头 部 字段 告诉 服务 器 自己 还 有 
数据 要 发 送 


2xx 成 功 200 OK 请 求 成 功 


1xx 信息 100 Continue 


301 Moved Permanently 资源 被 转移 了 ， 请 求 将 被 重 定向 
通知 客户 端 资源 能 在 其 他 地 方 找 到 ， 但 需要 使 用 
302 Found i 
GET 方法 来 获得 它 
3xx 重 定向 304 Not Modified 表示 被 申请 的 资源 没有 更 新 ， 和 之 前 获得 的 相同 
通知 客户 端 资源 能 在 其 他 地 方 找 到 。 与 302 不 同 
307 Temporary Redirect 的 是 ， 客 户 端 可 以 使 用 和 原始 请 求 相同 的 请 求 方法 


来 访问 目标 资源 
400 Bad Request 通用 客户 请 求 错误 
401 Unauthorized 请 求 需要 认证 信息 


i 访问 被 服务 器 禁止 ， 通 常 是 由 于 客户 端 没有 权 卫 
4xx 客户 端 错误 403 Forbidden i 让 ， 肖 入 把 内 于 罕有 开设 有 权 也 
访问 该 资源 


404 Not Found 资源 没 找到 
407 Proxy Authentication Required 客户 端 需要 先 获得 代理 服务 器 的 认证 
500 Internal Server Error 通用 服务 需 错误 

5xx 服务 器 错误 


503 Service Unavailable 暂时 无 法 访问 服务 器 


第 2 一 7 行 是 HTTP 应 答 的 头 部 字段 。 其 表示 方法 与 HTTP 请 求 中 的 
头 部 字段 相同 。 


“Server:BWS/1. 0 表示 目标 Web 服 务 器 程序 的 名 字 是 BWS (Baidu 
Web Server) 。 


“Content-Length:8024” 表 示 目 标 文 档 的 长 度 为 8024 字 节 。 这 个 值 和 
wget 输 出 的 文档 长 度 一 致 。 


“Content-Type:texthtml;charset=gbk” 表 示 目 标 文档 的 MIME 类 型 。 
其 中 “text" 是 主 文 档 类 型 ，“html” 是 子 文 档 类 型 。*“texthtml” 表 示 目 标 文 
档 index.htm] 是 text 类 型 中 的 htm] 文 档 。*charset" 是 text 文 档 类 型 的 一 个 参 
数 ， 用 于 指定 文档 的 字符 编码 。 


“9et- 
Cookie:BAIDUID=A5B6C72D68CF639CE8896FD79A03FBD8:FG=1;expi 
res=Wed,04-Jul-42 00:10:47 GMT;path=/;domain=. baidu.com” 表 示 服 务 坑 
传送 一 个 Cookie 给 窗户 端 。 其 中 , “BAIDUID”? 指 定 Cookie 的 名 
字 , “expires” 指 定 Cookie 的 生存 时 间 , “domain” 和 “path” 指 定 该 Cookie 
生效 的 域名 和 路 径 。 下 面 我 们 简单 分 析 一 下 Cookie 的 作用 。 


第 2 章 中 曾 提 到 ，HTTP 协 议 是 一 种 无 状态 的 协议 ， 即 每 个 HTTP 请 
求 之 间 没 有 任何 上 下 文 关系 。 如 果 服 务 器 处 理 后 续 HTTP 请 求 时 需要 用 


到 前 面 的 HITP 请 求 的 相关 信息 ， 客 户 端 必须 重 传 这 些 信息 。 这 样 吏 导 
致 HITP 请 求 必 须 传 输 更 多 的 数据 。 


在 交互 式 Web 应 用 程序 兴起 之 后 ，HTTP 协 议 的 这 种 无 状态 特性 就 
显得 不 适应 了 ， 因 为 交互 程序 通常 要 承上启下 。 因 此 ， 我 们 要 使 用 额 
外 的 手段 来 保持 HTTP 连 接 状态 ， 第 见 的 解决 方法 下 是 Cookie。Cookie 
征服 务 器 发 送 给 客户 端的 特殊 信息 通过 HTTP 应 答 的 头 部 字段 “Set- 
Cookie”) ， 客 户 端 每 次 向 服务 器 发 送 请 求 的 时 候 都 需要 带 上 这 些 信息 
(通过 HTTP 请 求 的 头 部 字段 “Cookie”) 。 这 样 服务 器 就 可 以 区 分 不 同 
的 客户 了 。 基 于 浏 贤 絮 的 目 动 登 录 忠 古 用 Cookie 实 现 的 。 


“Via:1. 0 localhost(squid/3.0 STABLE18)” 表 示 HTTP 应 答 在 返回 过 程 
中 经 历 过 的 所 有 代理 服务 器 的 地 址 和 名 称 。 这 里 的 localhost 实 际 上 指 的 
是 “192.168.1.108”。 这 个 头 部 字段 的 功能 有 点 类 似 于 IP 协 议 的 记录 路 由 


功能 


[© 


在 所 有 头 部 字段 之 后 ，HTTP 应 答 必 须 包 舍 一 个 空 行 ， 以 标识 头 部 


字段 的 结束 。 状 态 行 和 每 个 头 部 字段 都 必须 以 <CR> <LF> 结束 ; 而 
空 行 则 必须 只 包含 一 个 <CR> <LF> ， 不 能 有 其 他 字符 ， 甚 至 是 空 
字符 。 


空 行 之 后 是 被 请 求 文档 index.html 的 内 容 (当然 ， 我 们 并 不 关心 
它 ) ， 其 长 度 是 8024 字 节 。 


4.7 ”实例 总 结 


至 此 ， 我 们 成 功 地 访问 了 Internet 上 的 Web 服 务 器 ， 通 过 该 实例 ， 
我 们 分 析 了 TCP/IP 协 议 族 各 层 的 部 分 协议 ， 应 用 层 的 HITP 和 DNS、 传 
输 层 的 TCP 和 UDP、 网 络 层 的 IP、 数 据 链 路 层 的 ARP， 以 及 它们 之 间 
是 如 何 协作 来 完成 网 络 通信 的 。 我 们 的 分 析 方 法 是 使 用 cpdump 抓 包 ， 
然后 观察 各 层 协议 的 头 部 内 容 以 推断 其 工作 原理 。 在 后 续 革 广 中 ， 我 
们 还 将 多 次 使 用 这 种 方法 来 分 析 问 题 。 
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第 5 和 章 ”Linux 网 络 编程 基础 API 


本 章 是 承前启后 的 一 章 。 它 探讨 Linux 网 络 编程 基础 API 与 内 核 中 
TCP/IP 协 议 族 之 间 的 关系 ， 并 为 后 续 章节 提供 编程 基础 。 我 们 将 从 如 
下 3 个 方面 讨论 Linux 网 络 API: 


Dsocket 地 址 API。socket 最 开始 的 合 义 是 一 个 IP 地 址 和 端口 对 
(ip，port) 。 它 唯一 地 表示 了 使 用 TCP 通 信 的 一 端 。 本 书 称 其 为 socket 
地 址 。 


口 socket 基 础 API。socket 的 主要 API 都 定义 在 sys/socket.h 头 文件 
中 ， 包 括 创建 socket、 命 名 socket、 监 听 socket、 接 受 连 接 、 发 起 连接 、 
读 写 数据 、 获 取 地 址 信息 、 检 测 带 外 标记 ， 以 及 读 取 和 设置 socket 选 
项 。 


口 网 络 信息 API。Linux 提 供 了 一 套 网 络 信息 API， 以 实现 主机 名 和 
IP 地 址 之 间 的 转换 ， 以 及 服务 名 称 和 端口 号 之 间 的 转换 。 这 些 API 都 定 
义 在 netdb.h 头 文件 中 ， 我 们 将 讨论 其 中 几 个 主要 的 函数 。 
5.1 socket 地 址 API 


要 学 习 socket 地 址 API， 移 要 理解 主机 字 节 序 和 网 络 字 下 序 。 


5.1.1 主机 字 市 友和 网 络 字 广 序 


现代 CPU 的 累加 器 一 次 都 能 装载 (至 少 ，4 字 市 〈 这 里 考虑 32 位 
机 ， 下 同 ) ， 即 一 个 整数 。 那 么 这 4 字 节 在 内 存 中 排列 的 顺序 将 影响 它 
被 累加 器 装载 成 的 整数 的 值 。 这 就 是 字 节 序 问题 。 字 节 序 分 为 大 端 字 
节 序 (big endian) 和 小 端 字 节 序 (little endian) 。 大 端 字 节 序 是 指 一 
个 整数 的 高 位 字 市 (23 一 31 bit) 存储 在 内 存 的 低地 址 处 ， 低 位 字 市 (0 
~7bit) 存储 在 内 存 的 高 地 址 处 。 小 端 字 节 序 则 是 指 整 数 的 高 位 字 节 存 
储 在 内 存 的 高 地 址 处 ， 而 低位 字 节 则 存储 在 内 存 的 低地 址 处 。 代 码 清 
单 5-1 可 用 于 检查 机 器 的 字 节 序 。 


代码 清单 5-1 判断 机 器 字 克 序 


#include< stdio.h> 
void byteorder() 
{ 


union 

short value; 

char union_bytes[sizeof(short)]; 

}test,; 

test.value=0x0102; 

if((test.union bytes[0]==1)&&(test.union_ bytes[1]==2)) 
{ 

printf("big endian\n"); 

else if((test.union bytes[0]==2)&&(test.union bytes[1]==1)) 
{ 

printf("little endian\n"); 


else 


printf("unknown...\n"); 


} 
} 


现代 PC 大 多 采用 小 端 字 节 序 ， 因 此 小 端 字 节 序 又 被 称 为 主机 字 古 
序 O 


当 格式 化 的 数据 (比如 32 bit 整 型 数 和 16 bit 短 整 型 数 ) 在 两 台 使 用 
不 同 字 节 序 的 主机 之 间 直 接 传 递 时 ， 接 收 端 必然 错误 地 解释 之 。 解 决 
问题 的 方法 是 : 发 送 端 总 是 把 要 发 送 的 数据 转化 成 大 端 字 节 序数 据 后 
再 发 送 ， 而 接收 端 知 道 对 方 传送 过 来 的 数据 总 是 采用 大 端 字 节 序 ， 所 
以 接收 端 可 以 根据 自身 采用 的 字 节 序 决 定 是 否 对 接收 到 的 数据 进行 转 
换 (小 端 机 转换 ， 大 端 机 不 转换 ) 。 因 此 大 端 字 市 序 也 称 为 网 络 字 市 
序 ， 它 给 所 有 接收 数据 的 主机 提供 了 一 个 正确 解释 收 到 的 格式 化 数据 
的 保证 。 


需要 指出 的 是 ， 即 使 是 同一 台 机 器 上 的 两 个 进程 比如 一 个 由 C 语 
言 编写 ， 另 一 个 由 JAVA 编写 ) 通信 ， 也 要 考虑 字 节 序 的 问题 (JAVA 虚 
拟 机 采用 大 端 字 市 序 。 


Linux 提 供 了 如 下 4 个 函数 来 完成 主机 字 市 序 和 网 络 字 市 序 之 间 的 
转换 : 


#include<netinet/in.h> 

unsigned long int htonl(unsigned long int hostlong); 
unsigned short int htons(unsigned short int hostshort); 
unsigned long int ntohl(unsigned long int netlong); 
unsigned short int ntohs(unsigned short int netshort); 


它们 的 含义 很 明确 ， 比 如 htonl 表 示 “host to network long”， 即 将 长 
整 型 (32 bit) 的 主机 字 厄 序数 据 转 化 为 网 络 字 节 序 数据 。 这 4 个 函数 
中 ， 长 整 型 函数 通常 用 来 转换 IP 地 址 ， 短 整 型 画 数 用 来 转换 端口 号 

(当然 不 限于 此 。 任 何 格式 化 的 数据 通过 网 络 传输 时 ， 都 应 该 使 用 这 
些 函 数 来 转换 字 节 序 ) 。 


5.1.2 ”通用 socket 地 址 


socket 网 络 编程 接口 中 表示 socket 地 址 的 是 结构 体 sockaddr， 其 定义 
如 下 : 


#ijnclude<bits/socket.h> 
struct sockaddr 


sa_family_t sa family; 
char sa_data[14]; 
} 


sa_family 成 员 是 地 址 族 类 型 (sa_family_t) 的 变量 。 地 址 族 类 型 通 
党 与 协议 族 类 型 对 应 。 常 见 的 协议 族 (protocol family， 也 称 domain , 
见 后 文 ) 和 对 应 的 地 址 族 如 表 5-1 所 示 。 


表 5-1 协议 族 和 地 址 族 的 关系 


PF_UNIX UNIX 本 地 域 协议 族 
PF INET TCP/IPv4 协议 族 
PF INET6 TCP/IPv6 协议 族 


宏 PF_* 和 AF _* 都 定义 在 bits/socket.h 头 文件 中 ， 且 后 者 与 前 者 有 完 
全 相同 的 值 ， 所 以 二 者 通常 混用 。 


sa_data 成 员 用 于 存放 socket 地 址 值 。 但 是 ， 不 同 的 协议 族 的 地 址 值 
具有 不 同 的 含义 和 长 度 ， 如 表 5-2 所 示 。 


表 5-2 协议 族 及 其 地 址 值 


协议 族 地 址 值 含义 和 长 度 

PF_UNIX 文件 的 路 径 名 ， 长 度 可 达到 108 字 节 ( 见 后 文 ) 

PF_INET 16 bit 端口 号 和 32 bit IPv4 地 址 ， 共 6 字 节 

i 16 bit 端口 号 ，32 bit 流标 识 ，128 bit IPv6 地 址 ，32 bit 范围 ID， 


共 26 字 节 


由 表 5-2 可 见 ，14 字 世 的 sa_data 根 本 无 法 完全 容纳 多 数 协 议 族 的 地 
址 值 。 因 此 ，Linux 定 义 了 下 面 这 个 新 的 通用 socket 地 址 结构 体 : 


#include<bits/socket.h> 

struct sockaddr_storage 

{ 

sa_family_t sa family; 

unsigned long int_ ss_align; 
char__ss_padding[128-sizeof(__ss_align)]; 


} 


这 个 结构 体 不 仅 提供 了 足够 大 的 空间 用 于 存放 地 址 值 ， 而 且 十 内 
存 对 齐 的 (这 是 _ss_align 成 员 的 作用 ) 。 


5.1.3 ”专用 socket 地 址 


上 面 这 两 个 通用 socket 地 址 结构 体 显 然 很 不 好 用 ， 比 如 设置 与 获取 


IP 地 址 和 端口 号 承 需 要 执行 烦琐 的 位 操作 。 所 以 Linux 为 各 个 协议 族 提 
供 了 专门 的 socket 地 址 结构 体 。 


体 ， 


UNIX 本 地 域 协 议 族 使 用 如 下 专用 socket 地 址 结构 体 : 


#include<sys/un.h> 
struct sockaddr_un 


{ 
sa_family_t sin_family;/* 地 址 族 : AF_UNIX*/ 


char sun_path[108];/* 文 件 路 径 名 */ 
}; 


TCP/IP 协 议 族 有 sockaddr_in 和 sockaddr_in6 两 个 专用 socket 地 址 结构 
它们 分 别 用 于 IPv4 和 IPv6: 


struct sockaddr_in 


{ 
sa_family_t sin_family;/* 地 址 族 : AF_INET*/ 


u_int16_t sin_port;/* 端 口号 ， 要 用 网 络 字 节 序 表示 */ 
struct in_addr sin_addr;/*IPv4 地 址 结构 体 ， 见 下 面 */ 
}; 

struct in_addr 

u_int32_t s_addr;/*IPv4 地 址 ， 要 用 网 络 字 节 序 表示 */ 
}; 


struct sockaddr_in6 


sa_family_t sin6_family;/* 地 址 族 : AF_INET6*/ 
u_int16_t sin6_port;/* 端 口号 ， 要 用 网 络 字 太 序 表示 */ 
u_int32_t sin6_flowinfo;/* 流 信息 ， 应 设置 为 0*/ 

struct in6_addr sin6_addr;/*IPV6 地 址 结构 体 ， 见 下 面 */ 
u_int32_t sin6_scope_id;/*scope ID， 尚 处 于 实验 阶段 */ 
}; 


struct in6_addr 


unsigned char sa_addr[16];/*IPv6 地 址 ， 要 用 网 络 字 节 序 表示 */ 
}; 


这 两 个 专用 socket 地 址 结构 体 各 字段 的 含义 部 很 明确 ， 我 们 只 在 右 
边 稍 加 注释 。 


所 有 专用 socket 地 址 (以 及 sockaddr_storage) 类 型 的 变量 在 实际 使 
用 时 都 需要 转化 为 通用 socket 地 址 类 型 sockaddr (强制 转换 即 可 ) ， 
为 所 有 socket 编 程 接口 使 用 的 地 址 参数 的 类 型 都 是 sockaddr 。 


5.1.4” IP 地 址 转换 函数 


通常 ， 人 们 习惯 用 可 读 性 好 的 字符 串 来 表示 IP 地 址 ， 比 如 用 点 分 
十 进 制 字符 串 表 示 IPv4 地 址 ， 以 及 用 十 六 进 制 字符 串 表 示 IPv6 地 址 。 但 
编程 中 我 们 需要 移 把 它们 转化 为 整数 〈 二 进 制 数 ) 方 能 使 用 。 而 记录 
日 志 时 则 相反 ， 我 们 要 把 整数 表示 的 卫 地 址 转化 为 可 读 的 字符 串 。 下 
面 3 个 函数 可 用 于 用 点 分 十 进 制 字符 串 表 示 的 IPv4 地 址 和 用 网 络 字 蔬 序 
整数 表示 的 IPv4 地 址 之 间 的 转换 : 


#include<arpa/inet.h> 

in_addr_t inet addr(const char*strptr); 

int inet_aton(const char*cp,struct in_addr*inp); 
char*inet_ntoa(struct in_addr in); 


inet_addr 范 数 将 用 点 分 十 进 制 字 符 串 表示 的 IPv4 地 址 转化 为 用 网 络 
字 节 序 整数 表示 的 IPv4 地 址 。 它 失败 时 返回 INADDR_NONE。 


inet_aton 函 数 完 成 和 inet_addr 同 样 的 功能 ， 但 是 将 转化 结果 存储 于 
参数 inp 指 同 的 地 址 结构 中 。 它 成 功 时 返回 1， 失 败 则 返回 0 


inet_ntoa 函 数 将 用 网 络 字 届 序 整数 表示 的 IPv4 地 址 转化 为 用 点 分 十 
进 制 字符 串 表 示 的 IPv4 地 址 。 但 需要 注意 的 是 ， 该 函数 内 部 用 一 个 静 
人 态 变 量 存 储 转化 结果 ， 求 数 的 返回 值 指 向 该 静态 内 存 ， 因 此 inet_ntoa 是 
不 可 重 入 的 。 代 码 清单 5-2 揭 示 了 其 不 可 重 入 性 。 


代码 清单 5-2 ”不 可 重 入 的 inet_ntoa 函 数 


char*szValue1i=inet_ntoa(“1.2.3.4”); 
char*szValue2=inet_ntoa(“10.194.71.60”); 
printf(“address 1:%s\n”,szValuel1); 
printf(“address 2:%s\n”,szValue2); 


运行 这 段 代码 ， 得 到 的 结果 是 : 


address1:10.194.71.60 
address2:10.194.71.60 


下 面 这 对 更 狐 的 函数 也 能 完成 和 前 面 3 个 函数 同样 的 功能 ， 并 且 它 
们 同时 适用 于 IPv4 地 址 和 IPv6 地 址 : 


#include<arpa/inet.h> 

int inet_pton(int af,const char*src,void*dst); 

const char*inet_ntop(int af,const void*src,char*dst,socklen_t 
cnt ) ， 


inet_pton 函 数 将 用 字符 串 表 示 的 了 地址 src 〈 用 点 分 十 进 制 字 符 串 表 
示 的 IPv4 地 址 或 用 十 六 进 制 字符 串 表 示 的 了 Pv6 地 址 ) 转换 成 用 网 络 字 市 
序 整数 表示 的 IP 地 址 ， 并 把 转换 结果 存储 于 dst 指 向 的 内 存 中 。 其 中 ，af 
参数 指定 地 址 族 ， 可 以 是 AF_INET 或 者 AF_INET6。inet_pton 成 功 时 返 
回 1， 失 败 则 返回 0 并 设置 errno (| 。 


inet_ntop 芳 数 进 行 相反 的 转换 ， 前 三 个 参数 的 含义 与 inet_pton 的 参 
数 相同 ， 最 后 一 个 参数 cnt 指 定 目 标 存 储 单元 的 大 小 。 下 面 的 两 个 宏 能 
帮助 我 们 指定 这 个 大 小 〈 分 别 用 于 IPv4 和 IPv6) : 


#ijnclude<netinet/in.h> 
#define INET ADDRSTRLEN 16 
#define INET6 ADDRSTRLEN 46 


inet_ntop 成 功 时 返回 目标 存储 单元 的 地 址 ， 失 败 则 返回 NULL 并 设 


置 errno 2 


[1] Linux 提 供 众 多 errno 以 表示 各 种 错误 。 如 非特 殊 情况 ， 本 书 将 不 一 
一 指出 各 函数 可 能 反馈 的 ermo 值 。 


5.2 ”创建 socket 


UNIX/Linux 的 一 个 哲学 是 : 所 有 东西 都 是 文件 。socket 也 不 例 
外 ， 它 就 是 可 读 、 可 写 、 可 控制 、 可 关闭 的 文件 描述 符 。 下 面 的 
socket 系 统 调用 可 创建 一 个 socket: 


#include< sys/types.h> 
#include<sys/socket.h> 


int socket(int domain,int type,int protocol); 


ll 


domain 参 数 告 诉 系 统 使 用 哪个 底层 协议 族 。 对 TCP/IP 协 议 族 而 
该 参数 应 该 设置 为 PF_INET (Protocol Family of Internet， 用 于 


IPv4) 或 PF_INET6 (用 于 IPv6) ; 对 于 UNIX 本 地 域 协议 族 而 言 ， 该 
参数 应 该 设置 为 PF_UNIX。 关 于 socket 系 统 调用 支持 的 所 有 协议 族 ， 
请 读者 目 己 参考 其 man 手 册 。 


type 人 参数 指定 服务 类 型 。 服 务 类 型 主要 有 SOCK_STREAM 服 务 
( 流 服务 ) 和 SOCK_UGRAM (数据 报 ) 服务 。 对 TCP/IP 协 议 族 而 


言 ， 其 值 取 SOCK_STREAM 表 示 传 输 层 使 用 TCP 协 议 ， 取 
SOCK_DGRAM 表 示 传 输 层 使 用 UDP 协议 。 


已， 


值得 指出 的 是 ， 目 Linux 内 核 版 本 2.6.17 起 ，type 参 数 可 以 接受 上 
述 服 务 类 型 与 下 面 两 个 重要 的 标志 相 与 的 值 : SOCK_NONBLOCK 和 


SOCK_CLOEXEC 。 它 们 分 别 表示 将 新 创建 的 socket 设 为 非 阻 豆 的 ， 以 
及 用 fork 调 用 创建 子 进 程 时 在 子 进 程 中 关闭 该 socket。 在 内 核 版 本 
2.6.17 之 前 的 Linux 中 ， 文 件 描 述 符 的 这 两 个 属性 都 需要 使 用 额外 的 系 
统 调用 (比如 fcntl) 来 设置 。 


protocol 参 数 是 在 前 两 个 参数 构成 的 协议 集合 下 ， 再 选择 一 个 具体 
的 协议 。 不 过 这 个 值 通常 都 是 唯一 的 (前 两 个 参数 已 经 完全 决定 了 它 
的 值 )。 几乎 在 所 有 情况 下 ， 我 们 都 应 该 把 它 设置 为 0， 表 示 使 用 默认 
协议 。 


socket 系 统 调用 成 功 时 返回 一 个 socket 文 件 描述 符 ， 失 败 则 返回 -1 


并 设置 errno 。 


5.3 ”命名 Socket 


创建 socket 时 ， 我 们 给 它 指定 了 地 址 族 ， 但 是 并 未 指定 使 用 该 地 
址 族 中 的 哪个 具体 socket 地 址 。 将 一 个 socket 与 socket 地 址 绑 定 称 为 给 
socket 命 名 。 在 服务 器 程序 中 ， 我 们 通常 要 命名 socket， 因 为 只 有 命名 
后 客户 端 才能 知道 该 如 何 连接 它 。 客 户 端 则 通常 不 需要 命名 socket， 
而 是 采用 匿名 方式 ， 即 使 用 操作 系统 自动 分 配 的 socket 地 址 。 命 名 
socket 的 系统 调用 是 bind， 其 定义 如 下 : 


#include<sys/types.h> 

#include<sys/socket.h> 

int bind(int sockfd,const struct sockaddr*my_addr, socklen_t 
addrlen); 


bind 将 my_addr 所 指 的 socket 地 址 分 配给 未 命名 的 sockfd 文 件 揪 壕 
符 ，addrlen 参 数 指出 该 socket 地 址 的 长 度 。 


bind 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 其 中 两 种 常见 的 
errno 是 EACCES 和 EADDRINUSE， 它 们 的 含义 分 别 是 : 


口 EACCES， 被 绑 定 的 地 址 是 受 保护 的 地 址 ， 仅 超级 用 户 能 够 访 
问 。 比 如 普通 用 户 将 socket 绑 定 到 知名 服务 端口 〈 端 口号 为 0 一 1023) 
上 时 ，bind 将 返回 EACCES 错 误 。 


DEADDRINUSE， 被 绑 定 的 地 址 正在 使 用 中 。 比 如 将 socket 绑 定 
到 一 个 处 于 TIME_WAIT 状 态 的 socket 地 址 。 


5.4 监听 Socket 


socket 被 命名 之 后 ， 还 不 能 马上 接受 客户 连接 ， 我 们 需要 使 用 如 
下 系统 调用 来 创建 一 个 监听 队列 以 存放 行 处 理 的 客户 连接 : 


#include<sys/socket.h> 
int listen(int sockfd,int backlog); 


sockfd 参 数 指定 被 监听 的 socket。backlog 参 数 提示 内 核 监听 队列 的 

最 大 长 度 。 监 听 队 列 的 长 度 如 果 超 过 backlog， 服 务 器 将 不 受理 新 的 客 
户 连 接 ， 客 户 端 也 将 收 到 ECONNREFUSED 错 误 信息 。 在 内 核 版 本 2.2 
之 前 的 Linux 中 ，backlog 参 数 是 指 所 有 处 于 半 连 接 状 态 

(SYN_RCVD) 和 完全 连接 状态 (ESTABLISHED) 的 socket 的 上 限 。 
但 目 内 核 版 本 2.2 之 后 ， 它 只 表示 处 于 完全 连接 状态 的 socket 的 上 限 ， 
处 于 半 连 接 状 态 的 socket 的 上 限 则 
由 /proc/sys/net/ipv4/tcp_max_syn_backlog 内 核 参 数 定义 。backlog 参 数 


的 典型 值 是 5 。 


listen 成 功 时 返回 09， 失败 则 返回 -1 并 设置 ermo 。 


下 面 我 们 编写 一 个 服务 器 程序 ， 如 代码 清单 5-3 所 示 ， 以 人 研究 
backlog 参 数 对 listen 系 统 调用 的 实际 影响 。 


代码 清单 5-3 ”backlog 参 数 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<signal.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<assert.h> 
#include<stdio.h> 
#include<string.h> 
static bool stop=false; 
/*SIGTERM 信 和 号 的 处 理 函 数 ， 和 触发 时 结束 主 程序 中 的 循环 */ 


static void handle term(int sig) 


{ 

stop=true,; 

} 

int main(int argc,char*argv[]) 
{ 


signal(SIGTERM,handle_ term); 

if(argc<==3) 

{ 

printf("usage:%s ip_address port_number 
backlog\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int backlog=atoi(argv[3]); 

int sock=socket(PF_INET,SOCK STREAM,0); 

assert(sock>=0); 

/* 创 建 一 个 IPvV4 socket 地 址 */ 

struct sockaddr_in address; 

bzero(&address, sizeof (address ) ) ; 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,backlog); 

assert(ret!=-1); 

/* 循 环 等 待 连接 ， 直 到 有 SIGTERM 信 号 将 它 中 断 */ 

while(!stop) 


{ 
sleep(1); 


} 

/* 关 闭 socket， 见 后 文 */ 
close(sock); 

return ©; 


} 


该 服务 器 程序 (名 为 testlisten) 接收 3 个 参数 ，IP 地 址 、 端 口号 和 
backlog 值 。 我 们 在 Kongming20 上 运行 该 服务 器 程序 ， 并 在 ernest- 
laptop 上 多 次 执行 telnet 命 令 来 连接 该 服务 絮 程 序 。 同 时 ， 每 使 用 telnet 
命令 建立 一 个 连接 ， 就 执行 一 次 netstat 命 令 来 查看 服务 器 上 连接 的 状 
态 。 具 体操 作 过 程 如 下 : 


$./testlisten 192.168.1.109 12345 5# 监 昕 12345 端 口 ， 给 backlog 传 递 典 
UI 值 5 

$telnet 192.168.1.109 12345# 多 次 执行 之 

$netstat-nt|grep 12345# 多 次 执行 之 


[In 


代码 清单 5-4 是 netstat 命 令 某 次 输出 的 内 容 ， 它 显示 了 这 一 时 刻 
listen 监 听 队 列 的 内 容 。 


代码 清单 5-4 listen 监 听 队 列 的 内 容 


Proto Recv-Q Send-Q Local Address Foreign Address Statetcp 


tcp © 0 192.168.1.109:12345 192.168.1.108:2240 SYN_RECV 
tcp © © 192.168.1.109:12345 192.168.1.108:2228 SYN_RECV [1] 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2230 SYN_RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2238 SYN_RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2236 SYN_RECV 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2217 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2226 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2224 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2212 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2220 ESTABLISHED 
tcp 0 0 192.168.1.109:12345 192.168.1.108:2222 ESTABLISHED 


可 见 ， 在 监听 队列 中 ， 处 于 ESTABLISHED 状 态 的 连接 只 有 6 个 
backlog 值 加 1) ， 其 他 的 连接 都 处 于 SYN_RCVD 状 态 。 我 们 改变 服 

器 程序 的 第 3 个 参数 并 重新 运行 之 ， 能 发 现 同样 的 规律 ， 即 完整 连接 
最 多 有 (backlog+1) 个 。 在 不 同 的 系统 上 ， 运 行 结果 会 有 些 差别 ， 不 
过 监听 队列 中 完整 连接 的 上 限 通常 比 backlog 值 略 大 。 


( 
务 


[1] 等 价 于 图 8-8 中 的 SYN_RCVD 状 态 。 


5.5 “接受 连接 


下 面 的 系统 调用 从 listen 监 昕 队列 中 接受 一 个 连接 : 


#include<sys/types.h> 
#include<sys/socket.h> 
int accept(int sockfd,struct sockaddr*addr,socklen_t*addrlen); 


sockfd 参 数 是 执行 过 listen 系 统 调用 的 监听 socket 1 。addr 参 数 用 来 
获取 被 接受 连接 的 远 端 socket 地 址 ， 该 socket 地 址 的 长 度 由 addrlen 参 数 
指出 。accept 成 功 时 返回 一 个 新 的 连接 socket， 该 socket 唯 一 地 标识 了 
被 接受 的 这 个 连接 ， 服 务 右 可 通过 读 写 该 socket 来 与 被 接受 连接 对 应 
的 客户 端 通信 。accept 失 败 时 返回 -1 并 设置 errno。 


现在 考虑 如 下 情况 : 如 果 监 听 队 列 中 处 于 ESTABLISHED 状 态 的 
连接 对 应 的 客户 端 出 现 网 络 异 常 《比如 掉 线 ) ， 或 者 提前 退出 ， 那 么 


服务 器 对 这 个 连接 执行 的 accept 调 用 是 否 成 功 ? 我 们 编写 一 个 简单 的 
服务 器 程序 来 测试 之 ， 如 代码 清单 5-5 所 示 。 


代码 清单 5-5 ”接受 一 个 异 肖 的 连接 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 


#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
int main(int argc,char*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET, ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_ STREAM,0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 

assert(ret!=-1); 

/* 暂 停 20 秒 以 等 待 客户 端 连 接 和 相关 操作 ( 掉 线 或 者 退出 ) 完成 */ 

sleep(20); 

struct sockaddr_in client ， 

socklen _t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 


printf("errno is:%d\n",errno); 


} 


else 


{ 

/* 接 受 连 接 成 功 则 打印 出 客户 端的 TP 地 址 和 端口 号 */ 

char remote[INET ADDRSTRLEN]; 

printf("connected with ip:%s and port:%d\n",inet_ntop(AF_INET,& 
client.sin_addr,remote,INET ADDRSTRLEN),ntohs(client.sin_port)); 

close(connfd); 


close(sock); 
return 0; 


} 


我 们 在 Kongming20 上 运行 该 服务 器 程序 (名 为 testaccept) ， 并 在 
ernest-laptop 上 执行 telnet 命 令 来 连接 该 服务 絮 程 序 。 具 体操 作 过 程 如 
下 : 


$./testaccept 192.168.1.109 54321# 监 听 54321 端 口 
$telnet 192.168.1.109 54321 


局 动 telnet 客 户 端 程序 后 ， 立 即 断 开 该 客户 端的 网 络 连 接 (建立 和 
断 开 连 接 的 过 程 要 在 服务 器 启动 后 20 秒 内 完成 ) 。 结 果 发 现 accept 调 
用 能 够 正常 返回 ， 服 务 器 输出 如 下 : 


connected with ip:192.168.1.108 and port:38545 


接着 ， 在 服务 器 上 运行 netstat 命 令 以 查看 accept 返 回 的 连接 socket 
的 状态 : 


$netstat-nt|grep 54321 
tcp 0 © 192.168.1.109:54321 192.168.1.108:38545 ESTABLISHED 


netstat 命 令 的 输出 说 明 ，accept 调 用 对 于 客户 端 网 络 断 开 训 不 知 
情 。 下 面 我 们 重新 执行 上 述 过 程 ， 不 过 这 次 不 断 开 客户 端 网 络 连接 ， 
而 是 在 建立 连接 后 立即 退出 客户 端 程序 。 这 次 accept 调 用 同样 正常 返 
回 ， 服 务 顺 输出 如 下 : 


connected with ip:192.168.1.108 and port:52070 


再 次 在 服务 器 上 运行 netstat 命 令 : 


$netstat-nt|grep 54321 
tcp 1 © 192.168.1.109:54321 192.168.1.108:52070 CLOSE_WAIT 


由 此 可 见 ，accept 只 是 从 监听 队列 中 取出 连接 ， 而 不 论 连 接 处 于 
何 种 状态 〈 如 上 面 的 ESTABLISHED 状 态 和 CLOSE WAIT 状态 ) ， 更 
不 关心 任何 网 络 状况 的 变化 。 


[1] 我们 把 执行 过 listean 调 用 、 处 于 LISTEN 状 态 的 socket 称 为 监听 
socket， 而 所 有 处 于 ESTABLISHED 状 态 的 socket 则 称 为 连接 socket 。 


5.6 发 起 连接 


如 果 说 服务 器 通 过 listen 调 用 来 被 动 接受 连接 ， 那 么 客户 关 需 要 通 
过 如 下 系统 调用 来 主动 与 服务 右 建 立 连接 : 
#include<sys/types.h> 
#include<sys/socket.h> 


int connect(int sockfd,const struct sockaddr*serv_addr,socklen_t 
addrlen); 


sockfd 参 数 由 socket 系 统 调用 返回 一 个 socket。serv_addr 参 数 是 服 
务 器 监听 的 socket 地 址 ，addrlen 参 数 则 指定 这 个 地 址 的 长 度 。 


connect 成 功 时 返回 0。 一 旦 成 功 建立 连接 ，sockfd 莽 唯一 地 标识 了 
这 个 连接 ， 客 户 端 就 可 以 通过 读 写 sockfd 来 与 服务 器 通信 。connect 失 
败 则 返回 -1 并 设置 errno。 其 中 两 种 常见 的 errno 是 ECONNREFUSED 和 


ETIMEDOUT， 它 们 的 含义 如 下 : 


口 ECONNREFUSED， 目 标 端 口 不 存在 ， 连 接 被 拒绝 。 我 们 在 


3.5.1 小 节 讨 论 过 这 种 情况 。 


DETIMEDOUT， 连 接 超时 。 我 们 在 3.3.3 小 和 讨论 过 这 种 情况 。 


5.7 六 财 这 你 


天 财 一 个 连接 实际 上 束 是 关闭 该 连接 对 应 的 socket， 这 可 以 通过 如 
下 天 闭 普 通 文件 接 述 符 的 系统 调用 来 完成 : 


#include<unistd.h> 
int close(int fd); 


fd 参数 是 待 关闭 的 socket。 不 过 ，close 系 统 调用 并 非 总 是 立即 关闭 
一 个 连接 ， 而 是 将 fd 的 引用 计数 减 1。 只 有 当 fa 的 引用 计数 为 0 时 ， 才 真 
正 关闭 连接 。 多 进程 程序 中 ， 一 次 fork 系 统 调用 默认 将 使 父 进 程 中 打开 
的 socket 的 引用 计数 加 1， 因 此 我 们 必须 在 父 进程 和 子 进 程 中 都 对 该 
socket 执 行 close 调 用 才能 将 连接 关闭 。 


如 有 果 无 论 如 何 都 要 立即 终止 连接 (而 不 是 将 socket 的 引用 计数 减 
1) ， 可 以 使 用 如 下 的 shutdown 系 统 调 用 (相对 于 close 来 说 ， 它 是 专门 
为 网 络 编程 设计 的 ) : 


#include<sys/socket.h> 
int shutdown(int sockfd,int howto); 


sockfd 参 数 是 待 关 闭 的 socket 。howto 参 数 决 定 了 shutdown 的 行为 ， 
它 可 取 表 5-3 中 的 某 个 值 。 


表 5-3 howto 参数 的 可 选 值 
可 选 值 含 尺 
关闭 sockfd 上 读 的 这 一 半 。 应 用 程序 不 能 再 针对 socket 文件 描述 符 
执行 读 操 作 ， 并 且 该 socket 接收 缓冲 区 中 的 数据 都 被 丢弃 
关闭 sockfd 上 写 的 这 一 半 。sockfd 的 发 送 缓冲 区 中 的 数据 会 在 真正 
SHUT_WR 关闭 连接 之 前 全 部 发 送出 去 ， 应 用 程序 不 可 再 对 该 socket 文件 描述 符 
执行 写 操作 。 这 种 情况 下 ， 连 接 处 于 半 关 闭 状态 〈 见 3.3.2 小 节 ) 
SHUT RDWR 同时 关闭 sockfd 上 的 读 和 写 


SHUT_RD 


由 此 可 见 ，shutdown 能 够 分 别 关 闭 socket 上 的 读 或 写 ， 或 者 都 关 
闭 。 而 close 在 天 闭 连接 时 只 能 将 socket 上 的 读 和 写 同时 关闭 。 


shutdown 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


5.8 ”数据 读 写 
5.8.1 ”TCP 数据 读 写 


对 文件 的 读 写 操作 read 和 write 同样 适用 于 socket。 但 是 socket 编 程 接 
口 提 供 了 几 个 专门 用 于 socket 数 据 读 写 的 系统 调用 ， 它 们 增加 了 对 数据 
读 写 的 控制 。 其 中 用 于 TCP 流 数据 读 写 的 系统 调用 是 : 
#include<sys/types.h> 
#include<sys/socket.h> 


ssize_t recv(int sockfd,void*buf,size t len,int flags); 
ssize_t send(int sockfd,const void*buf,size _t len,int flags); 


recv 读 取 sockfd 上 的 数据 ，buf 和 len 参 数 分 别 指定 读 绥 冲 区 的 位 置 
和 大 小 ，flags 参 数 的 作 义 见 后 文 ， 通 第 设置 为 0 即 本 。recv 成 功 时 返回 
实际 读 取 到 的 数据 的 长 度 ， 它 可 能 小 于 我 们 期 望 的 长 度 lan。 因 此 我 们 
可 能 要 多 次 调用 recv， 才 能 读 取 到 完整 的 数据 。recv 可 能 返回 0， 这 意 
味 着 通信 对 方 已 经 关闭 连接 了 “。recv 出 钳 时 返回 -1 并 设置 errno。 


send 往 sockfd 上 写 入 数据 ，buf 和 ]en 参 数 分 别 指定 写 缓冲 区 的 位 置 
和 大 小 。send 成 功 时 返回 实际 写 入 的 数据 的 长 度 ， 失 败 则 返回 -1 并 设置 


errnoO° 


flags 参 数 为 数据 收发 提供 了 额外 的 控制 ， 


中 的 一 个 或 几 个 的 逻辑 或 。( 


它 可 以 取 表 5-4 所 示 选 项 


表 5-4 flags 参数 的 可 选 值 


选项 名 recv 
示 和 续 监 听 对 方 的 回应 ， 直 到 得 至 
TN 指示 数据 链 路 层 协议 持续 对 方 的 回应 直到 得 到 多 Ny 
能 用 于 SOCK DGRAM 和 SOCK RAW 类 型 的 socket 
不 查看 路 由 表 ， 直 接 将 数据 发 送 给 本 地 局 域 网 络 内 的 主机 。 这 
MSG DONTROUTE N 
= 示 发 送 者 确切 地 知道 目标 主机 就 在 本 地 网 络 上 
MSG DONTWAIT 对 socket 的 此 次 操作 将 是 非 阻塞 的 Y 
告诉 内 核 应 用 程序 还 有 更 多 数据 要 发 送 ， 内 核 将 超时 等 待 新 数据 
MSG_MORE 写 人 TCP 发 送 缓冲 区 后 一 并 发 送 。 这 样 可 防止 TCP 发 送 过 多 小 的 N 
报 文 段 ， 从 而 提高 传输 效率 
MSG_WAITALL 读 操 作 仅 在 读 取 到 指定 数量 的 字 节 后 才 返 回 尝 
MSG_PEEK 疾 探 读 缓存 中 的 数据 ， 此 次 读 操作 不 会 导致 这 些 数 据 被 清除 这 
MSG _ OOB 发 送 或 接收 紧急 数据 
往 读 冲 关闭 和 人 锭 :省 动 了 在 全 王 类 E 证 KK 己 Hs 
MSG NOSIGNAL 往 读 端 关闭 的 管道 或 者 socket 连接 = 中 写 数 据 时 不 引发 SIGPIPE | 


信号 


我 们 举例 来 说 明 如 何 使 用 这 
供 了 发 送 和 接收 市 外 数据 的 方法 ， 


代码 清单 5-6 ”发 送 带 外 数据 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<string.h> 
#include<stdlib.h> 

int main(int argc,char*argv[]) 


if(argc<=2) 


给 应 用 程序 提 
如 代码 清单 5-6 和 代码 清单 5-7 所 示 。 


选项 。MSG_OOB 选 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 


return 1; 


} 


const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in server_address; 

bzero(&server_address, sizeof (server_address)); 

server_address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip,Sserver_address.sin addr); 

server_address.sin_port=htons(port); 

int sockfd=socket(PF_INET,SOCK_STREANM, 0); 

assert(sockfd>=0); 

if(connect(sockfd, (struct sockaddr*)& 
server_address, sizeof(server_address))<0) 


{ 


printf("connection failed\n"); 


} 


else 

{ 

const char*oob data="abc"; 

const char*normal data="123"，; 
send(sockfd,normal data,strlen(normal_ data),o); 
send(sockfd,oob_data, strlen(oob_data),MSG6G 00B); 
send(sockfd,normal data,strlen(normal_ data),o); 


} 
close(sockfd); 
return 090; 


} 


代码 清单 5-7 接收 市 外 数据 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include< stdio.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
#define BUF_SIZE 1024 
int main(int argc,char*argv[]) 


if(argc<==2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


} 


const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof(address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_STREANM, 0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address,sizeof(address)); 

assert(ret!=-1); 

ret=]listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client; 

socklen_t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 


printf("errno is:%d\n",errno); 


} 


else 


char buffer[BUF_SIZE]; 

memset (buffer,'\0',BUF_SIZE); 

ret=recv(connfd, buffer,BUF_SIZE-1,0); 

printf("got%d bytes of normal data'%s'\n",ret,buffer); 
memset (buffer,'\0',BUF_ SIZE); 

ret=recv(connfd, buffer,BUF_SIZE-1,MSG_ O00B); 
printf("got%d bytes of oob data'%s'\n",ret,buffer); 
memset (buffer,'\0',BUF_SIZE); 

ret=recv(connfd, buffer,BUF_SIZE-1,0); 

printf("got%d bytes of normal data'%s'\n",ret,buffer); 
close(connfd); 


close(sock); 


return 90; 


} 


我 们 先 在 Kongming20 上 启动 代码 清单 5-7 所 示 的 服务 器 程序 (名 为 
testoobrecv) ， 然 后 从 ernest-laptop 上 执行 代码 清单 5-6 所 示 的 客户 端 程 


序 (名 为 testoobsend) 来 同 服务 器 发 送 带 外 数据 。 同 时 用 tcpdump 抓 取 
这 一 过 程 中 客户 端 和 服务 器 交换 的 TCP 报 文 段 。 具 体操 作 如 下 : 


$./testoobrecv 192.168.1.109 54321# 在 Kongming20 上 执行 服务 器 程序 ， 监 听 

54321 端 口 
$./testoobsend 192.168.1.109 54321# 在 ernest-laptop 上 执行 客户 端 程序 
$sudo tcpdump-ntx-i etho port 54321 


服务 器 程序 的 输出 如 下 : 


got 5 bytes of normal data'123ab 
got 1 bytes of oob data'c' 
got 3 bytes of normal data'123' 


由 此 可 见 ， 和 客户 端 发送 给 服务 硕 的 3 字 区 的 市 外 数据 “abc" 中 ， 仅 有 
最 后 一 个 字符 “c" 被 服务 器 当成 真正 的 带 外 数据 接收 (正如 3.8 节 讨论 的 

) 。 并 且 ， 服 务 器 对 正常 数据 的 接收 将 被 带 外 数据 截断 ， 即 前 一 
部 分 正常 数据 “123ab” 和 后 续 的 正常 数据 *123” 是 不 能 被 一 个 recv 调 用 全 

出 


tcpdump 的 输出 内 容 中 ， 和 带 外 数据 相关 的 是 代码 清单 5-8 所 示 的 
TCP 报 文 段 。 


代码 清单 5-8 含 市 外 数据 的 TCP 报 文 段 


IP 192.168.1.108.60460>192.168.1.109.54321:Flags[P.U],seq 
4:7,ack 1,win 92,urg 3,options[nop,nop,TS val 102794322 ecr 
154703423], length 3 


这 里 我 们 第 一 次 看 到 tcpdump 输 出 标志 U， 这 表示 该 TCP 报 文 段 的 
头 部 被 设置 了 紧急 标志 。“urg 3" 是 紧急 侦 移 值 ， 它 指出 市 外 数据 在 字 
节 流 中 的 位 置 的 下 一 字 市 位 置 是 7 \3+4， 其 中 4 是 该 TCP 报 文 段 的 序号 
值 相对 初始 序号 值 的 偏 移 ，、。 因 此 ， 带 外 数据 是 字 市 流 中 的 第 6 字 节 ， 


即 字 符 “c” 宫 


值得 一 提 的 是 ，flags 参 数 只 对 send 和 和 recv 的 当前 调用 生效 ， 而 后 面 
我 们 将 看 到 如 何 通 过 setsockopt 系 统 调 用 永久 性 地 修改 socket 的 某 些 属 
性 。 


5.8.2 UDP 数据 读 写 


socket 编 程 接口 中 用 于 UDP 数 据 报 读 写 的 系统 调用 是 : 


#include<sys/types.h> 

#include<sys/socket.h> 

ssize_t recvfrom(int sockfd,void*buf,size t len,int flags,struct 
sockaddr*src_addr, socklen_t*addrlen); 

ssize_t sendto(int sockfd,const void*buf,size t len,int 
flags,const struct sockaddr*dest_addr,socklen t addrlen); 


recvfrom 访 取 sockfd 上 的 数据 ，buf 和 1len 参 数 分 别 指定 读 缓冲 区 的 位 
置 和 大 小 。 因 为 UDP 通信 没有 连接 的 概念 ， 所 以 我 们 每 次 读 取 数 据 都 
需要 获取 发 送 端的 socket 地 址 ， 即 参数 src_addr 所 指 的 内 容 ，addrlen 参 
数 则 指定 该 地 址 的 长 度 。 


sendto 往 sockfd 上 写 入 数据 ，buf 和 ]en 参 数 分 别 指定 写 绥 冲 区 的 位 置 
和 大 小 。dest_addr 人 参数 指定 接收 端的 socket 地 址 ，addrlen 参 数 则 指定 该 
地 址 的 长 度 。 


这 两 个 系统 调用 的 flags 参 数 以 及 返回 值 的 含义 均 与 send/recv 系 统 调 
用 的 flags 参 数 及 返回 值 相同 。 


值得 一 提 的 是 ，recvfrom/sendto 系 统 调用 也 可 以 用 于 面向 连接 
(STREAM) 的 socket 的 数据 读 写 ， 只 需要 把 最 后 两 个 参数 都 设置 为 
NULL 以 忽略 发 送 端 /接收 端的 socket 地 址 (因为 我 们 已 经 和 对 方 建立 了 
和 连接， 所 以 已 经 知道 其 socket 地 址 了 ) 。 


5.8.3 ”通用 数据 读 写 函数 
socket 编 程 接口 还 提供 了 一 对 通用 的 数据 读 写 系统 调用 。 它 们 不 仅 
能 用 于 TCP 流 数据 ， 也 能 用 于 UDP 数据 报 : 


#include<sys/socket.h> 
ssize_t recvmsg(int sockfd,struct msghdr*msg,int flags); 
ssize_t sendmsg(int sockfd,struct msghdr*msg,int flags); 


sockfd 参 数 指定 被 探 作 的 目标 socket。msg 参 数 是 msghdr 结 构 体 类 
型 的 指针 ，msghdr 结 构 体 的 定义 如 下 : 


struct msghdr 


void*msg_name;/*socket 地 址 */ 

socklen_t msg_namelen;/*socket 地 址 的 长 度 */ 

struct iovec*msg_iov;/* 分 散 的 内 存 块 ， 见 后 文 */ 

int msg_iovlen;/* 分 散 内 存 块 的 数量 */ 
void*msg_control;/* 指 向 辅助 数据 的 起 始 位 置 */ 

socklen_t msg_controllen;/* 辅 助 数据 的 大 小 */ 

int msg_flags;/* 复 制 画 数 中 的 flags 参 数 ， 并 在 调用 过 程 中 更 新 */ 
}; 


msg_name 成 员 指 向 一 个 socket 地 址 结构 变量 。 它 指定 通信 对 方 的 
socket 地 址 。 对 于 面向 连接 的 TCP 协 议 ， 该 成 员 没 有 意义 ， 必 须 被 设置 
为 NULL。 这 是 因为 对 数据 流 socket 而 言 ， 对 方 的 地 址 已 经 知道 。 
msg_namelen 成 员 则 指定 了 msg_name 所 指 socket 地 址 的 长 度 。 


msg_iov 成 员 是 iovec 结 构 体 类 型 的 指针 ，iovec 结 构 体 的 定义 如 下 : 


struct iovec 


{ 

void*iov_base;/* 内 存 起 始 地 址 */ 
size_t iov_len;/* 这 块 内 存 的 长 度 */ 
}; 


由 上 可 见 ，iovec 结 构 体 封装 了 一 块 内 存 的 起 始 位 置 和 长 度 。 
msg_iovlen 指 定 这 样 的 iovec 结 构 对 象 有 和 多少 个 。 对 于 recvmsg 而 言 ， 数 
据 将 被 读 取 并 存放 在 msg_iovlen 块 分 散 的 内 存 中 ， 这 些 内 存 的 位 置 和 长 
度 则 由 msg_iov 指 向 的 数组 指定 ， 这 称 为 分 散 读 (scatter read) ; 对 于 
sendmsg 而 言 ，msg_iovlen 块 分 散 内 存 中 的 数据 将 被 一 并 发 送 ， 这 称 为 


集中 写 (gather write) 。 


msg_control 和 msg_controllen 成 员 用 于 辅助 数据 的 传送 。 我 们 不 详 
细 讨 论 它 们 ， 仅 在 第 13 章 介绍 如 何 使 用 它们 来 实现 在 进程 间 传 递 文件 


描述 符 。 


msg_flags 成 员 无 须 设 定 ， 它 会 复制 recvmsg/sendmsg 的 flags 参 数 的 
内 容 以 影响 数据 读 写 过 程 。recvmsg 还 会 在 调用 结束 前 ， 将 某 些 更 新 后 
的 标志 设置 到 msg_flags 中 。 


recvmsg/sendmsg 的 flags 参 数 以 及 返回 值 的 售 义 均 与 send/recv 的 flags 
参数 及 返回 值 相 同 。 


[1] 由 于 socket 和 连接 是 全 双 工 的 ， 这 里 的 * 读 问 ? 是 针对 通信 对 方 而 言 的 。 


5.9 ”和 融 外 标记 


代码 清单 5-7 演 示 了 TCP 融 外 数据 的 接收 方法 。 但 在 实际 应 用 中 ， 
我 们 通常 无 法 预期 市 外 数据 何 时 到来。 好 在 Linux 内 核 检 测 到 TCP 紧 急 
标志 时 ， 将 通知 应 用 程序 有 市 外 数据 需要 接收 。 内 核 通 知 应 用 程序 市 
外 数据 到 达 的 两 种 常见 方式 是 : IO 复 用 产生 的 异常 事件 和 SIGURG 信 
号 。 但 是 ， 即 使 应 用 程序 得 到 了 有 带 外 数据 需要 接收 的 通知 ， 还 需要 
知道 市 外 数据 在 数据 流 中 的 具体 位 置 ， 才 能 准确 接收 市 外 数据 。 这 一 
点 可 通过 如 下 系统 调用 实现 : 


#include<sys/socket.h> 
int sockatmark(int Sockfd ) ; 


sockatmark 判 断 Sockfd 是 否 处 于 带 外 标记 ， 即 下 一 个 被 读 取 到 的 数 
据 是 否 是 带 外 数据 。 如 果 是 ，sockatmark 返 回 1， 此 时 我 们 就 可 以 利用 


带 MSG_OOB 标 志 的 recv 调 用 来 接收 带 外 数据 。 如 果 不 是 ， 则 
sockatmark 返 回 0。 


5.10 “地址 信息 函数 


在 某 些 情况 下 ， 我 们 想 知道 一 个 连接 socket 的 本 端 socket 地 址 ， 以 
及 远 端 的 socket 地 址 。 下 面 这 两 个 男 数 正 是 用 于 解决 这 个 问题 : 
#include<sys/socket.h> 
int getsockname(int Sockfd, struct 
sockaddr*address, socklen_ t*address_len); 


int getpeername(int Sockfd, struct 
sockaddr*address, socklen_ t*address_len); 


getsockname 获 取 sockfd 对 应 的 本 端 socket 地 址 ， 并 将 其 存储 于 
address 人 参数 指定 的 内 存 中 ， 该 socket 地 址 的 长 度 则 存储 于 address_len 参 
数 指向 的 变量 中 。 如 果实 际 socket 地 址 的 长 度 大 于 address 所 指 内 存 区 
的 大 小 ， 那 么 该 socket 地 址 将 被 截断 。getsockname 成 功 时 返回 0， 失 败 
返回 -1 并 设置 errno。 


getpeername 获 取 sockfd 对 应 的 远 端 socket 地 址 ， 其 参数 及 返回 值 的 
含义 与 getsockname 的 参数 及 返回 值 相同 。 


5.11 socketj 千 项 


如 条 说 fcnt 系 统 调用 是 控制 文件 描述 符 属 性 的 通用 POSIX 方 法 ， 那 
么 下 面 两 个 系统 调用 则 是 专门 用 来 读 取 和 设置 socket 驻 件 摘 述 符 属 性 的 
方法 : 
#include<sys/socket.h> 
int getsockopt(int sockfd,int level,int 
option_name,void*option_value, socklen_t*restrict option_len); 


int setsockopt(int sockfd,int level,int option_name, const 
void*option_value, socklen_t option_len); 


sockfd 参 数 指 定 被 操作 的 目标 socket。level 参 数 指 定 要 操作 哪个 协 
议 的 选项 ( 即 属性 ) ， 比 如 IPv4、IPv6、TCP 等 。option_name 参 数 则 指 
定 选项 的 名 字 。 我 们 在 表 5-5 中 列举 了 socket 通 信 中 几 个 比较 第 用 的 
socketj 选 项 。option_value 和 option_len 参 数 分 别 是 被 操作 选项 的 值 和 长 
度 。 不 同 的 选项 具有 不 同类 型 的 值 ， 如 表 5-5 中 “数据 类 型 "一列 所 示 。 


level 


SOL _ SOCKET 


(通用 socket 选项 ， 


协议 无 关 ) 


IPPROTO_IP 
(IPv4 选项 ) 


IPPROTO _ IPV6 
(CIPv6 选项 ) 


IPPROTO _TCP 
(TCP 选项 ) 


getsockopt 和 setsockopt 这 两 个 函 


设置 errno 。 


表 5-5 _ socket 选项 


ETD 


打开 调试 信息 
重用 本 地 地 址 


SO_REUSEADDR 
SO_TYPE 


SO_ERROR 


获取 socket 类 型 
获取 并 清除 socket 错误 状态 


SO_DONTROUTE int 


与 | SO KEEPALIVE | in | 


SO_OOBINLINE 


lw | 
[mw | 


WT | 
[wepovmwa | m | 
[Tv | im | 
[esomw | m | 


值得 指出 的 是 ， 对 服务 器 而 言 ， 有 部 分 
系统 调用 前 针对 监听 socket (1 设置 才 有 效 。 
accept 调 用 返回 ， 而 accept 从 listen 监 昕 队列 中 接受 的 连接 至 少 已 经 完成 


数 成 功 时 返回 0， 


不 查看 路 由 表 ， 直 接 将 数据 发 送 给 本 地 
局 域 网 内 的 主机 。 人 含义 和 send 系统 调用 的 


MSG_DONTROUTE 标志 类 似 

TCP 接收 缓冲 区 大 小 

TCP 发 送 缓冲 区 大 小 

发 送 周 期 性 保 活 报 文 以 维持 连接 

接收 到 的 带 外 ee 存留 在 普通 数据 的 输 
入 队列 中 (在 线 存 留 )， 此 时 我 们 不 能 使 用 
带 MSG_O0OB 标志 jh 作 来 读 取 带 外 数据 
(而 应 该 像 读 取 普 通 数 据 那 样 读 取 带 外 数据 ) 

若 有 数据 待 发 送 ， 则 延迟 关闭 

TCP 接收 缓存 区 低 水 位 标记 

TCP 发 送 缓存 区 低 水 位 标记 

接收 数据 超时 《〈 见 第 11 章 ) 

发 送 数据 超时 〈 见 第 11 章 ) 

服务 类 型 

存活 时 间 

下 一 跳 IP 地 址 

接收 分 组 信息 

禁止 分 片 

接收 通信 类 型 

TCP 最 大 报 文 段 大 小 

禁止 Nagle 算法 


失败 时 返回 -1 并 


站 socket 选 项 只 能 在 调用 listen 
是 因为 连接 socket 只 外 


了 TCP 三 次 握手 的 前 两 个 步骤 〈 因 为 listen 监 听 队 列 中 的 连接 至 少 已 

入 SYN_RCVD 状 态 ， 参 见 图 3-8 和 代码 清单 5-4) ， 这 说 明 服 务 右 已 经 

往 个 接受 连 授 上 发 送出 了 TCP 同 步 报 文 段 。 但 有 有 的 socket 选 项 却 应 该 在 

TCP 同 步 报 文 段 中 设置 ， 比 如 TCP 最 大 报 文 段 选项 (回忆 3.2.2 小 方 ， 该 
选项 只 能 由 同步 报 文 段 来 发 送 ) 。 对 这 种 情况 ，Linux 给 开发 人 员 提 供 

的 解决 方案 是 : 对 监听 socket 设 置 这 些 socket 选 项 ， 那 么 accept 返 回 的 连 

接 socket 将 自动 继承 这 些 选 项 。 这 些 socket 选 项 包括 : SO_DEBUG 、 


SO_DONTROUTE ~、 SO_KEEPALIVE ~、 SO_LINGER、 
SO_OOBINLINE 、 SO_RCVBUF 、SO_RCVLOWAT 、SO_SNDBUF、 
SO_SNDLOWAT、TCP_MAXSEG 和 TCP_NODELAY。 而 对 客户 问 而 
言 ， 这 些 socket 选 项 则 应 该 在 调用 connect 函 数 之 前 设置 ， 因 为 connect 调 
用 成 功 返 回 之 后 ，TCP 三 次 握手 已 完成 。 


下 面 我 们 详细 讨论 部 分 重要 的 socket 选 项 。 


5.11.1 SO_REUSEADDR 选 项 


我 们 在 3.4.2 小 节 讨 论 过 TCP 连 接 的 TIME_WAIT 状 态 ， 并 提 到 服务 
器 程序 可 以 通过 设置 socket 选 项 SO_REUSEADDR 来 强制 使 用 被 处 于 
TIME_WAIT 状 态 的 连接 占用 的 socket 地 址 。 具 体 实现 方法 如 代码 清单 5- 
9 所 示 。 


代码 清单 5-9 重用 本 地 地 址 


int Sock=socket(PF_INET,SOCK_STREAM, 0); 

assert(sock>=0); 

int reuse=1; 
setsockopt(sock,SOL SOCKET,SO_ REUSEADDR, &reuse, sizeof (reuse)); 
struct sockaddr_in address ; 

bzero(&address, sizeof(address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int ret=bind(sock, (struct sockaddr*)&address,sizeof(address)); 


经 过 setsockopt 的 设置 之 后 ， 即 使 sock 处 于 TIME_WAIT 状 态 ， 与 之 
绑 定 的 socket 地 址 也 可 以 立即 被 重用 。 此 外 ， 我 们 也 可 以 通过 修改 内 核 
参数 /proc/sys/neUipv4/tcp_tw_recycle 来 快速 回收 被 关闭 的 socket， 从 而 
使 得 TCP 连 接 根 本 就 不 进入 TIME_WAIT 状 态 ， 进 而 允许 应 用 程序 立即 
重用 本 地 的 socket 地 址 。 


5.11.2 SO_RCVBUE 和 SO_SNDBUF 选 项 


SO_RCVBUF 和 SO_SNDBUF 选 项 分 别 表示 ITCP 接 收 缓 神 区 和 发 送 
绥 冲 区 的 大 小 。 不 过 ， 当 我 们 用 setsockopt 来 设置 TCP 的 接收 缓冲 区 和 
发 送 缓冲 区 的 大 小 时 ， 系 统 都 会 将 其 值 加 倍 ， 并 且 不 得 小 于 某 个 最 小 
值 。TCP 接 收 缓冲 区 的 最 小 值 是 256 字 节 ， 而 发 送 缓冲 区 的 最 小 值 是 
2048 字 节 (不 过 ,不同 的 系统 可 能 有 不 同 的 默认 最 小 值 )。 系统 这 样 
做 的 目的 ， 主 要 是 确保 一 个 TCP 连 接 拥 有 足够 的 空 几 缓冲 区 来 处 理 拥塞 

(比如 快速 重 传 算法 就 期 望 TCP 接 收 缓冲 区 能 至 少 容纳 4 个 大 小 为 
SMSS 的 TCP 报 文 段 ) 。 此 外 ， 我 们 可 以 直接 修改 内 核 参 


数 /proc/sys/netipv4/tcp_rmem 和 /proc/sys/neUipv4/tcp_wmem 来 强制 TCP 
接收 缓冲 区 和 发 送 缓冲 区 的 大 小 没有 最 小 值 限制 。 我 们 将 在 第 16 章 讨 


论 这 两 个 内 核 参数 。 


下 面 我 们 编写 一 对 客户 端 和 服务 器 程序 ， 如 代码 清单 5-10 和 代码 清 
单 5-11 所 示 ， 它 们 分 别 修改 TCP 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 。 


代码 清单 5-10 ”修改 TCP 发 送 绥 冲 区 的 客户 端 程序 


#include<sys/socket.h> 
#include<arpa/inet.h> 
#include<assert.h> 

#include< stdio.h> 
#include<unistd.h> 
#include<string.h> 
#include<stdlib.h> 

#define BUFFER_SIZE 512 

int main(int argcchar*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number 
send_bufer_size\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in server_address; 

bzero(&server_address, sizeof (server_address)); 

server_address.sin_ family=AF_INET; 

inet_pton(AF_INET, ip,Sserver_address.sin addr); 

server_address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_STREANM, 0); 

assert(sock>=0); 

int sendbuf=atoi(argv[3]); 

int len=sizeof(sendbuf); 

/* 先 设置 TCP 发 送 缓冲 区 的 大 小 ， 然 后 立即 读 取 之 */ 

setsockopt(sock,SOL SOCKET,SO_SNDBUF, &sendbuf, sizeof(sendbuf) ) ， 

getsockopt(sock,SOL_SOCKET,SO_SNDBUF,Ssendbuf, (socklen_t*)& 
len); 


printf("the tcp send buffer size after setting is%d\n",sendbuf); 
if(connect(sock, (struct sockaddr*)& 
server_address, sizeof(server_address))!=-1) 


{ 

char buffer[BUFFER_ SIZE]; 

memset (buffer, 'a',BUFFER_ SIZE); 
send(sock,buffer,BUFFER_SIZE, 0); 


close(sock); 
return 0; 


} 


代码 清单 5-11 ”修改 TCP 接 收 缓冲 区 的 服务 句 程 序 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include< stdio.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
#define BUFFER_SIZE 1024 
int main(int argc,char*argv[]) 


if(argc<==2) 


printf("usage:%s ip_address port_number 
recv_buffer_size\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof(address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_STREANM, 0); 

assert(sock>=0); 

int recvbuf=atoi(argv[3]); 

int len=sizeof (recvbuf); 

/* 先 设置 TCP 接 收 缓冲 区 的 大 小 ， 然 后 立即 读 取 之 */ 

setsockopt(sock,SOL_ SOCKET,SO_RCVBUF, &recvbuf, sizeof (recvbuf)); 


getsockopt(sock,SOL_SOCKET, SO_RCVBUF, &recvbuf, (socklen t*)& 
len); 

printf("the tcp receive buffer size after settting 
is%d\n",recvbuf); 

int ret=bind(sock,(struct sockaddr*)&address,sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client; 

socklen_t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 


printf("errno is:%d\n",errno); 


} 

else 

{ 

char buffer[BUFFER_ SIZE]; 

memset (buffer, '\0',BUFFER_SIZE); 
while(recv(connfd,buffer,BUFFER_SIZE-1,0)~>0){} 
close(connfd); 


close(sock); 
return 0; 


} 


我 们 在 ernest-laptop 上 运行 代码 清单 5-11 所 示 的 服务 器 程序 (名 为 
set_recv_buffer) ， 然 后 在 Kongming20 上 运行 代码 清单 5-10 所 示 的 客户 
端 程序 (名 为 set_send_buffer) 来 向 服务 器 发 送 512 字 节 的 数据 ， 然 后 用 
tcpdump 抓 取 这 一 过 程 中 双方 交换 的 TCP 报 文 段 。 具体 操作 过 程 如 下 : 


$./set_recv_buffer 192.168.1.108 12345 50# 将 TCP 接 收 缓冲 区 的 大 小 设置 为 
50 字 节 

the tcp receive buffer size after settting is 256 

$./set_send_buffer 192.168.1.108 12345 2000# 将 TCP 发 送 缓冲 区 的 大 小 设 
置 为 2 000 字 节 

the tcp send buffer Size after setting is 4000 

$tcpdump-nt-i etho port 12345 


从 服务 器 的 输出 来 看 ， 系 统 允 许 的 TCP 接 收 缓冲 区 最 小 为 256 字 
节 。 当 我 们 设置 TCP 接 收 缓冲 区 的 大 小 为 50 字 广 时 ， 系 统 将 忽略 我 们 的 
设置 。 从 客户 端的 输出 来 看 ， 我 们 设置 的 TCP 发 送 缓冲 区 的 大 小 被 系统 
增加 了 一 倍 。 这 两 种 情况 和 我 们 前 面 讨论 的 一 致 。 下 面 是 此 次 TCP 通 信 
的 tcpdump 输 出 : 


1.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[S],sed 
1425875256,win 14600,options[mss 1460,sackOK,TS val 7782289 ecr 
0,nop,wscale 4],1length 0 

2.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[S.],seq 
3109725840,ack 1425875257,win 192,options[mss 1460, sackOK,TS val 
126229160 ecr 7782289,nop,wscale 6],1length 0 

3.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[.],ack 1,win 
913,1length 0 

4.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[P.],seq 
1:193,ack 1,win 913, Length 192 

5.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[.],ack 
193,win 0, length 0 

6.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[.],ack 
193,win 3, length 0 

7.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[P.],seq 
193:385,ack 1,win 913,1length 192 

8.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[.],ack 
385,win 3, length 0 

9.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[P.],seq 
385:513,ack 1,win 913, Length 128 

10.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[.],ack 
513,win 3, length 0 

11.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[F.],seq 
513,ack 1,win 913, Length 0 

12.IP 192.168.1.108.12345>192.168.1.109.38663:Flags[F.],seq 
1,ack 514,win 3,1length 0 

13.IP 192.168.1.109.38663>192.168.1.108.12345:Flags[.],ack 2,win 
913,1length 0 


首先 注意 第 2 个 TCP 报 文 段 ， 它 指出 服务 器 的 接收 通告 窗口 大 小 为 
192 字 节 。 该 值 小 于 256 字 闻 ， 显 然 是 在 情理 之 中 。 同 时 ， 该 同步 报 文 


段 还 指出 服务 器 采用 的 窗口 扩大 因子 是 6。 所 以 服务 器 后 续 发 送 的 大 部 
分 TCP 报 文 段 (6、8、10 和 12) 的 实际 接收 通告 窗口 大 小 都 是 3x24 字 
节 ， 即 192 字 方 。 因 此 客户 端 每 次 最 多 给 服务 器 发 送 192 字 市 的 数据 。 
客户 端 一 共 给 服务 器 发 送 了 512 字 节 的 数据 ， 这 些 数据 必须 至 少 被 分 为 
3 个 TCP 报 文 段 (4、7 和 9) 来 发 送 。 


有 意思 的 是 TCP 报 文 段 5 和 6。 当 服务 器 收 到 客户 端 发 送 过 来 的 第 一 
批 数 据 (TCP 报 文 段 4) 时 ， 它 立即 用 TCP 报 文 段 5 给 予 了 确认 ， 但 该 确 
认 报 文 段 的 接收 通告 窗口 的 大 小 为 0° 这 说 明 TCP 模 块 发 送 该 确认 报 文 
段 时 ， 应 用 程序 还 没 来 得 及 将 数据 从 TCP 接 收 缓冲 中 读 出 。 所 以 此 时 客 
尸 问 是 不 能 发 送 数 据 给 服务 右 的 ， 直 到 服务 器 发 送 一 个 重复 的 确认 报 
文 段 (TCP 报 文 段 6) 来 扩大 其 接收 通告 窗口 。 


5.11.3 SO_RCVLOWAT 和 SO_SNDLOWAT 选 项 


SO_RCVLOWAT 和 SO_SNDLOWAT 选 项 分 别 表示 TCP 接 收 缓冲 区 
和 发 送 缓冲 区 的 低 水 位 标记 。 它 们 一 般 被 WO 复 用 系统 调用 ( 见 第 9 章 ) 
用 来 判断 socket 是 否 可 读 或 可 写 。 当 TCP 接 收 缓冲 区 中 可 读数 据 的 总 数 
大 于 其 低 水 位 标记 时 ，LIO 复 用 系统 调用 将 通知 应 用 程序 可 以 从 对 应 的 
socket 上 读 取 数据 当 TCP 发 送 缓冲 区 中 的 空 用 空间 (可 以 写 入 数据 的 
空间 ) 大 于 其 低 水 位 标记 时 ，VO 复 用 系统 调用 将 通知 应 用 程序 可 以 往 
对 应 的 socke 上 写 入 数据 。 


默认 情况 下 ，TCP 接 收 缓 冲 区 的 低 水 位 标记 和 TCP 发 送 缓冲 区 的 低 
水 位 标记 均 为 1 字 亡 。 


5.11.4 SO_LINGER 选 项 


SO_LINGER 选 项 用 于 控制 close 系 统 调用 在 关闭 TCP 连 接 时 的 行 
为 。 默 认 情 况 下 ， 当 我 们 使 用 close 系 统 调用 来 关闭 一 个 socket 时 ，close 
将 立即 返回 ，TCP 模 块 负责 把 该 socket 对 应 的 TCP 发 送 缓冲 区 中 残留 的 
数据 发 送 给 对 方 。 


如 表 5-5 所 示 ， 设 置 (获取 ) SO_LINGER 选 项 的 值 时 ， 我 们 需要 给 
setsockopt (getsockopt) 系统 调用 传递 一 个 linger 类 型 的 结构 体 ， 其 定 
义 如 下 : 


#include<sys/socket.h> 
struct linger 


{ 

int 1_onoff;/* 开 启 ( 非 0) 还 是 关闭 (0) 该 选项 */ 
int 1_ 1inger;/* 滞 留 时 间 */ 

】 


根据 linger 结 构 体 中 两 个 成 员 变 量 的 不 同 值 ，close 系 统 调 用 可 能 
和 如 下 9M 人 7 放 之 一 


口 ] onoff 等 于 0。 此 时 SO_LINGER 选 项 不 起 作用 ，close 用 默认 行为 
来 关闭 socket 。 


口 L_onoff 不 为 0，L_linger 等 于 0。 此 时 close 系 统 调用 立即 返回 ，TCP 
模块 将 丢弃 被 关闭 的 socket 对 应 的 TCP 发 送 缓冲 区 中 残留 的 数据 ， 同 时 
给 对 方 发 送 一 个 复位 报 文 段 ( 见 3.5.2 小 节 ) 。 因 此 ， 这 种 情况 给 服务 
器 提供 了 异常 终止 一 个 连接 的 方法 。 


品 ]_onoff 不 为 0，1_linger 大 于 0。 此 时 close 的 行为 取决 于 两 个 条 
件 : 一 是 被 关闭 的 socket 对 应 的 TCP 发 送 缓冲 区 中 是 否 还 有 残留 的 数 
据 ; 二 是 该 socket 是 阻塞 的 ， 还 是 非 阻 塞 的 。 对 于 阻塞 的 socket，close 
将 等 待 一 段 长 为 ]_ linger 的 时 间 ， 直 到 TCP 模 块 发 送 完 所 有 残留 数据 并 
得 到 对 方 的 确认 。 如 果 这 段 时 间 内 TCP 模 块 没 有 发 送 完 残留 数据 并 得 到 
对 方 的 确认 ， 那 么 alose 系 统 调用 将 返回 -1 并 设置 errno 为 
EWOULDBLOCK。 如 果 socket 是 非 阻 塞 的 ，close 将 立即 返回 ， 此 时 我 
们 需要 根据 其 返回 值 和 errno 来 判断 残留 数据 是 否 已 经 发 送 完毕 。 关 于 
阻塞 和 非 阻塞 ， 我 们 将 在 第 8 章 讨论 。 


[1] 确切 地 说 ，socket 在 执行 listen 调 用 前 是 不 能 称 为 监听 socket 的 ， 此 处 
是 指 将 执行 listen 调 用 的 socket 。 


5.12 ”网 络 信息 API 


socket 地 址 的 两 个 要 素 ， 即 卫 地 址 和 端口 号 ， 都 是 用 数值 表示 的 。 
这 不 便于 记忆 ， 也 不 便于 扩展 (比如 从 IPv4 转 移 到 IPv6) 。 因 此 在 前 面 
的 章节 中 ， 我 们 用 主机 名 来 访问 一 台 机 器 ， 而 避免 直接 使 用 其 IP 地 
址 。 同 样 ， 我 们 用 服务 名 称 来 代 准 端口 号 。 比 如 ， 下 面 两 条 telnet 命 令 
具有 完全 相同 的 作用 : 


telnet 127.0.0.1 80 
telnet localhost www 


上 面 的 例子 中 ，telnet 客 户 端 程序 是 通过 调用 某 些 网 络 信息 API 来 实 
现 主 机 名 到 IP 地 址 的 转换 ， 以 及 服务 名 称 到 闻 口 号 的 转换 的 。 下 面 我 
们 将 讨论 网 络 信息 API 中 比较 重要 的 几 个 。 


5.12.1 gethostbyname 和 gethostbyaddr 


gethostbyname 函 数 根据 主机 名 称 获 取 主 机 的 完整 信息 ， 
gethostbyaddr 画 数 根据 IP 地 址 获取 主机 的 完整 信息 。gethostbyname 函 数 
通常 先 在 本 地 的 /etc/hosts 配 置 文件 中 查找 主机 ， 如 果 没 有 找到 ， 再 去 访 
问 DNS 服务 器 。 这 些 在 前 面 章 节 中 都 讨论 过 。 这 两 个 函数 的 定义 如 


下 : 


#include<netdb.h> 

struct hostent*gethostbyname(const char*name); 

struct hostent*gethostbyaddr(const void*addr,size t len,int 
type); 


name 参 数 指定 目标 主机 的 主机 名 ，addr 参 数 指定 目标 主机 的 IP 地 
址 ，len 人 参数 指定 addr 所 指 了 地 址 的 长 度 ，type 人 参数 指定 addr 所 指 IP 地 址 


的 类 型 ， 其 合法 取 值 包括 AF_INET 〈 用 于 IPv4 地 址 ) 和 AF_INET6 (用 
于 IPv6 地 址 ) 。 


这 两 个 芳 数 返回 的 都 是 hostent 结 构 体 类 型 的 指针 ，hostent 结 构 体 的 
定义 如 下 : 


#ijnclude<netdb.h> 
struct hostent 


{ 

char*h_name;/* 主 机 名 */ 

char**h_aliases;/* 主 机 别名 列表 ， 可 能 有 多 个 */ 

int h_addrtype;/* 地 址 类 型 (地址 族 ) */ 

int h_length;/* 地 址 长 度 */ 

char**h_addr_1ist/* 按 网 络 字 节 序 列 出 的 主机 IP 地 址 列表 */ 
}; 


5.12.2 getservbyname 和 getservbyport 


getservbyname 函 数 根据 名 称 获 取 某 个 服务 的 完整 信息 ， 
getservbyport 函 数 根 据 端 口号 获取 某 个 服务 的 完整 信息 。 写 们 实际 上 都 
电 通 过 读 取 /etc/services 文 件 来 获取 服务 的 信息 的 。 这 两 个 函 数 的 定义 
如 下 : 


#include<netdb.h> 
struct servent*getservbyname(const char*name,const char*proto); 
struct servent*getservbyport(int port,const char*proto); 


name 参 数 指定 目标 服务 的 名 字 ，port 参 数 指 定 目 标 服 务 对 应 的 端口 
号 。proto 参 数 指定 服务 类 型 ， 给 它 传递 “tcp” 表 示 获 取 流 服务 ， 给 它 传 
递 “udp” 表 示 获 取 数 据 报 服 务 ， 给 它 传递 NULL 则 表示 获取 所 有 类 型 的 


服务 。 


这 两 个 芳 数 返回 的 都 是 servent 结 构 体 类 型 的 指针 ， 结 构 体 servent 的 
定义 如 下 : 


#include<netdb.h> 

struct servent 

{ 

char*s_name;/* 服 务 名 称 */ 

char**s_aliases;/* 服 务 的 别名 列表 ， 可 能 有 多 个 */ 
int s_port;/* 端 口号 */ 
char*s_proto;/* 服 务 类 型 ,通常 是 tcp 或 者 udp*/ 
}; 


下 面 我 们 通过 主机 名 和 服务 名 来 访问 目标 服务 右上 的 daytime 服 
务 ， 以 获取 该 机 器 的 系统 时 间 ， 如 代码 清单 5-12 所 示 。 


代码 清单 5-12 ”访问 daytime 上 服务 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<netdb.h> 

#include< stdio.h> 
#include<unistd.h> 
#include<assert.h> 

int main(int argc,char*argv[]) 


{ 
assert(argc==2); 
char*host=argv[1]; 
/* 获 取 目 标 主机 地 址 信息 */ 
struct hostent*hostinfo=gethostbyname(host); 
assert(hostinfo); 
/* 获 取 daytime 服 务 信息 */ 
struct servent*servinfo=getservbyname("daytime","tcp"); 
assert(servinfo); 
printf("daytime port is%d\n",ntohs(servinfo->s_port)); 
struct sockaddr_in address ; 
address.sin_ family=AF_INET; 
address.sin _ port=servinfo->s_port; 
/注意 下 面 的 代码 ， 因 为 hn_addr_1ist 本 号 是 使 用 网 络 字 节 序 的 地 址 列表 ， 所 以 使 用 其 
的 IP 地 址 时 ， 无 须 对 目标 IP 地 址 转换 字 节 序 */ 
address.sin addr=*(struct in_addr*)*hostinfo->h_addr_list; 
int sockfd=socket(AF_INET,SOCK_ STREANM, 0); 
int result=connect(sockfd, (struct sockaddr*)& 
address, sizeof (address) ) ， 
assert(result!=-1); 
char buffer[128]; 
result=read(sockfd, buffer, sizeof (buffer)); 
assert(result>0); 
buffer[result]='\0 ' ; 
printf("the day tiem is:%s",buffer); 
close(Sockfd ) ; 
return 0; 


} 


机 


需要 指出 的 是 ， 上 面 讨论 的 4 个 函数 都 是 不 可 重 入 的 ， 即 非 线程 安 
全 的 。 不 过 netdb.h 头 文件 给 出 了 它们 的 可 重 入 版 本 。 正 如 Linux 下 所 有 
其 他 函数 的 可 重 入 版 本 的 命名 规则 那样 ， 这 些 函 数 的 函数 名 是 在 原 函 
数 名 尾部 加 上 _T (re-entrant) 。 


5.12.3 getaddrinfo 


getaddrinfo 函 数 既 能 通过 主机 名 获得 IP 地 址 《内 部 使 用 的 是 


gethostbyname 函 数 ) ， 也 能 通过 服务 名 获得 端口 号 (内 部 使 用 的 是 
getservbyname 函 数 ) 。 它 是 否 可 重 入 取决 于 其 内 部 调用 的 


gethostbyname 和 getservbyname 凡 数 是 否 是 它们 的 可 重 入 版 本 。 该 芳 数 
的 定义 如 下 : 
#include<netdb.h> 


int getaddrinfo(const char*hostname,const char*service,const 
struct addrinfo*hints,struct addrinfo**result); 


hostname 参 数 可 以 接收 主机 名 ， 也 可 以 接收 字符 串 表示 的 IP 地 址 
(IPv4 采 用 点 分 十 进 制 字符 串 ，IPv6 则 采用 十 六 进 制 字符 串 ) 。 同 样 ， 
service 参 数 可 以 接收 服务 名 ， 也 可 以 接收 字符 串 表示 的 十 进 制 端口 号 。 
hints 参 数 是 应 用 程序 给 getaddrinfo 的 一 个 提示 ， 以 对 getaddrinfo 的 输出 

进行 更 精确 的 控制 。hints 参 数 可 以 被 设置 为 NULL， 表 示人 允许 
getaddrinfo 反 馈 任何 可 用 的 结果 。result 参 数 指向 一 个 链表 ， 该 链表 用 于 
存储 getaddrinfo 反 馈 的 结果 。 


getaddrinfo 反 馈 的 每 一 条 结果 都 是 addrinfo 结 构 体 类 型 的 对 象 ， 结 
构 体 addrinfo 的 定义 如 下 : 


struct addrinfo 


int ai flags;/* 见 后 文 */ 

int ai_family;/* 地 址 族 */ 

int ai_socktype;/* 服 务 类 型 ，SOCK_STREAM 或 SOCK_DGRAM*/ 
int ai_protocol;/* 见 后 文 */ 

socklen_t ai addrlen;/*socket 地 址 ai_addr 的 长 度 */ 


char*ai_canonname;/* 主 机 的 别名 */ 
struct sockaddr*ai_addr;/* 指 向 socket 地 址 */ 
struct addrinfo*ai_next;/* 指 向 下 一 个 sockinfo 结 构 的 对 象 */ 


}; 


该 结构 体 中 ， 


ai_protocol 成 员 是 指 具体 的 网 络 协议 ， 其 含义 和 


socket 系 统 调用 的 第 三 个 参数 相同 ， 它 通 第 被 设置 为 0。ai_flags 成 员 可 


以 取 表 5-6 中 的 标志 的 按 位 或 。 


选 项 


AI PASSIVE 


AL CANONNAME 


AI NUMERICHOST 


AL NUMERICSERV 


AI V4MAPPED 


AL ALL 


AL ADDRCONFIG 


表 5-6 ai _flags 成 员 
含义 

在 hints 参数 中 设置 ， 表 示 调 用 者 是 否 会 将 取得 的 socket 地 址 用 于 被 动 打开 。 服 务 
器 通常 需要 设置 它 ， 表 示 接 受 任何 本 地 socket 地 址 上 的 服务 请 求 。 客 户 端 程序 不 能 
设置 它 

在 hints 参数 中 设置 ， 告 诉 getaddrinfo 函数 返回 主机 的 别名 

在 hints 参数 中 设置 ， 表 示 hostname 必须 是 用 字符 串 表 示 的 IP 地址， 从 而 避免 了 
DNS 查询 

在 hints 参数 中 设置 ， 强 制 service 参数 使 用 十 进 制 端 口号 的 字符 串 形式 ， 而 不 能 是 
服务 名 

在 hints 参数 中 设置 。 如 果 ai_family 被 设置 为 AF_INET6， 那么 当 没 有 满足 条 件 的 
IPv6 地 址 被 找到 时 ， 将 IPv4 地 址 映射 为 IPv6 地 址 

必须 和 AL V4MAPPED 同时 使 用 ， 否 则 将 被 忽略 。 表 示 同 时 返回 符合 条 件 的 IPv6 
地 址 以 及 由 IPv4 地 址 映射 得 到 的 IPv6 地 址 

仅 当 至 少 配置 有 一 个 IPv4 地 址 〈 除 了 回路 地 址 ) 时 ， 才 返回 IPv4 地 址 信息 ; 同 
样 ， 仅 当 至 少 配 置 有 一 个 IPv6 地 址 (除了 回路 地 址 ) 时 ， 才 返回 IPv6 地 址 信息 。 它 
和 AL V4MAPPED 是 互 斥 的 


当 我 们 使 用 hints 参 数 的 时 候 ， 可 以 设置 其 ai _flags，ai_family， 
ai_socktype 和 ai_protocol 四 个 字段 ， 其 他 字段 则 必须 被 设置 为 NULL 。 
例如 ， 代 码 清单 5-13 利 用 了 hints 参 数 获 取 主 机 ernest-laptop 上 
的 “daytime” 流 服务 信息 。 


代码 清单 5-13 ”使 用 getaddrinfo 函 数 


struct addrinfo hints 

struct addrinfoxres， 

bzero(&hints,sizeof(hints)); 
hints.ai_socktype=SOCK_STREAM; 
getaddrinfo("ernest-laptop", "daytime", &hints, &res); 


从 代码 清单 5-13 中 我 们 能 分 析出 ，getaddrinfo 将 隐 式 地 分 配 堆 内 存 
(可 以 通过 valgrind 等 工具 查看 ) ， 因 为 res 指 针 原 本 是 没有 指向 一 块 合 
法 内 存 的 ， 所 以 ，getaddrinfo 调 用 结束 后 ， 我 们 必须 使 用 如 下 配对 函数 
来 释放 这 块 内 存 : 


#include<netdb.h> 
void freeaddrinfo(struct addrinfo*res); 


5.12.4 getnameinfo 


getnameinfo 了 芳 数 能 通过 socket 地 址 同时 获得 以 字符 串 表 示 的 主机 名 
(内 部 使 用 的 是 gethostbyaddr 函 数 ) 和 服务 名 (内 部 使 用 的 是 
getservbyport 芳 数 ) 。 它 是 否 可 重 入 取决 于 其 内 部 调用 的 gethostbyaddr 
和 getservbyport 函 数 是 否 是 它们 的 可 重 入 版 本 。 该 函数 的 定义 如 下 : 


#include<netdb.h> 

int getnameinfo(const struct sockaddr*sockaddr,socklen 七 
addrlen,char*host,socklen t hostlen,char*serv,socklen t servilen,int 
flags); 


getnameinfo 将 返回 的 主机 名 存储 在 host 参 数 指 同 的 绥 存 中 ， 将 服务 
名 存储 在 serv 参 数 指 回 的 缓存 中 ，hostlean 和 servlen 参 数 分 别 指定 这 两 块 


缓存 的 长 度 。flags 人 参数 控制 getnameinfo 的 行为 ， 它 可 以 接收 表 5-7 中 的 


选项 。 


表 5-7 flags 参数 


选 项 含义 
NI NAMEREQD 如 果 通 过 socket 地 址 不 能 获得 主机 名 ， 则 返回 一 个 错误 
返回 数据 报 服务 。 大 部 分 同时 支持 流 和 数据 报 的 服务 使 用 相同 的 端口 号 来 

A 提供 这 两 种 服务 。 但 端口 512~514 是 例外 。 比 如 TCP 的 514 端口 提供 的 是 

二 shell 登录 服务 ， 而 UDP 的 514 端口 提供 的 是 syslog 服务 (参见 /etc/services 

文件 ) 

NI NUMERICHOST 返回 字符 串 表示 的 IP 地 址 ， 而 不 是 主机 名 
NI_NUMERICSERV 返回 字符 串 表 示 的 十 进 制 端口 号 ， 而 不 是 服务 名 
NI_NOFQDN 仅 返回 主机 域名 的 第 一 部 分 。 比 如 对 主机 名 nebula.testing.com，getnameinfo 


只 将 nebula 写 和 人 host 缓存 中 


getaddrinfo 和 getnameinfo 函 数 成 功 时 返回 0， 失 败 则 返回 错误 码 ， 
可 能 的 错误 码 如 表 5-8 所 示 。 


表 5-8 getaddrinfo 和 getnameinfo 返回 的 错误 码 


EAI AGAIN 调用 临时 失败 ， 提 示 应 用 程序 过 后 再 试 

EAI BADFLAGS 非法 的 ai_flags 值 

EAI_FAIL 名 称 解析 失败 

EAI _ FAMILY 不 支持 的 ai_family 参数 

EAI MEMORY 内 存 分 配 失败 

EAI NONAME 非法 的 主机 名 或 服务 名 

EAI OVERFLOW 用 户 提供 的 缓冲 区 溢出 。 仅 发 生 在 getnameinfo 调用 中 


没有 支持 的 服务 ， 比 如 用 数据 报 服务 类 型 来 查找 ssh 服务 。 因 为 ssh 
服务 只 能 使 用 流 服 务 
不 支持 的 服务 类 型 。 如 果 hints.ai_socktype 和 hints.ai_protocol 不 一 


EAI SERVICE 


EAI SOCKTYPE 致 ， 比 如 前 者 指定 SOCK_DGRAM， 而 后 者 使 用 的 是 IPROTO_TCP， 
则 会 触发 这 类 错误 
EAI SYSTEM 系统 错误 ， 错 误 值 存储 在 errno 中 


Linux 下 strerror 函 数 能 将 数值 铺 误 码 errno 转 换 成 易 读 的 字符 串 形 
式 。 同 样 ， 下 面 的 范 数 可 将 表 5-8 中 的 错误 码 转 换 成 其 字符 串 形 式 : 


#include<netdb.h> 
const char*gai_ strerror(int error); 


Linux 探 供 了 很 多 高 级 的 MO 函 数 。 它 们 并 不 像 Linux 基 础 TO 函 数 

(比如 open 和 read) 那么 常用 〈 编 写 内 核 模块 时 一 般 要 实现 这 些 IO 男 

数 ) ， 但 在 特定 的 条 件 下 却 表现 出 优秀 的 性 能 。 本 章 将 讨论 其 中 和 网 
络 编程 相关 的 几 个 ， 这 些 函 数 大 致 分 为 三 类 : 


口 用 于 创建 文件 描述 符 的 函数 ， 包 括 pipe、dup/dup2 函 数 。 


口 用 于 读 写 数据 的 函数 ， 包 括 readwwritev、sendfile、 


mmap/munmap、splice 和 tee 琴 数 。 


口 用 于 控制 7O 行 为 和 属性 的 函数 ， 包 括 fcnd 函 数 。 


6.1 pipe 函 效 


pipe 芳 数 可 用 于 创建 一 个 管道 ， 以 实现 进程 间 通 信 。 我 们 将 在 13.4 
节 讨 论 如 何 使 用 管道 来 实现 进程 间 通 信 ， 本 间 只 介绍 其 基本 使 用 方 
式 。pipe 画 数 的 定义 如 下 : 


#include<unistd.h> 
int pipe(int fd[2]); 


pipe 函 数 的 参数 是 一 个 包含 两 个 int 型 整数 的 数组 指针 。 该 函数 成 
功 时 返回 9， 并 将 一 对 打开 的 文件 摘 述 符 值 填 入 其 参数 指向 的 数组 。 如 
果 失 败 ， 则 返回 -1 并 设置 errno 。 


通过 pipe 函 数 创建 的 这 两 个 文件 描述 符 fd[0] 和 fd[1] 分 别 构成 管道 
的 两 端 ， 往 fd[1] 写 入 的 数据 可 以 从 fd[0] 读 出 。 并 且 ，fd[0] 只 能 用 于 从 
管道 读 出 数据 ，fd[1] 则 只 能 用 于 往 管道 写 入 数据 ， 而 不 能 反 过 来 使 
用 。 如 果 要 实现 双向 的 数据 传输 ， 就 应 该 使 用 两 个 管道 。 默 认 情 况 
下 ， 这 一 对 文件 描述 符 都 是 阻塞 的 。 此 时 如 果 我 们 用 read 系 统 调 用 来 
读 取 一 个 空 的 管道 ， 则 read 将 被 阻塞 ， 直 到 管道 内 有 数据 可 读 ， 如 果 
我 们 用 write 系统 调用 来 往 一 个 满 的 管道 〈 见 后 文 ) 中 写 入 数据 ， 则 
write 亦 将 被 阻塞 ， 直 到 管道 有 足够 多 的 空闲 空间 可 用 。 但 如 果 应 用 程 
序 将 fd[0] 和 fd[1] 都 设置 为 非 阻 塞 的 ， 则 read 和 write 会 有 不 同 的 行为 。 
关于 阻塞 和 非 阻塞 的 讨论 ， 见 第 8 章 。 如 果 管 道 的 写 端 文 件 描述 符 fd[1] 
的 引用 计数 〈 见 5.7 节 ) 减少 至 0， 即 没有 任何 进程 需要 往 管道 中 写 入 
数据 ， 则 针对 该 管道 的 读 端 文件 描述 符 fd[0] 的 read 操 作 将 返回 0， 即 读 
取 到 了 文件 结束 标记 (End Of File，EOF) ; 反之 ， 如 果 管 道 的 读 端 
文件 描述 符 fd[0] 的 引用 计数 减少 至 0， 即 没有 任何 进程 需要 从 管道 读 取 
数据 ， 则 针对 该 管道 的 写 端 文件 描述 符 fd[1] 的 write 操作 将 失败 ， 并 引 
发 SIGPIPE 信 和 号。 关于 SIGPIPE 信 号 ， 我 们 将 在 第 10 章 讨论 。 


管道 内 部 传输 的 数据 是 字 节 流 ， 这 和 TCP 字 节 流 的 概念 相同 。 但 
二 者 又 有 细微 的 区 别 。 应 用 层 程序 能 往 一 个 TCP 连 接 中 写 入 多 少 字 
的 数据 ， 取 决 于 对 方 的 接收 通告 窗口 的 大 小 和 本 端的 拥 蹇 窗口 的 大 
小 。 而 管道 本 身 拥有 一 个 容量 限制 ， 它 规定 如 宁 应 用 程序 不 将 数据 从 
管道 读 走 的 话 ， 该 管道 最 多 能 被 写 入 多 少 字 市 的 数据 。 目 Linux 2.6.11 
内 核 起 ， 管 道 容量 的 大 小 默认 是 65536 字 节 “。 我 们 可 以 使 用 fcnt 函 数 来 
见 后 


站 
修改 管道 容量 ( 见 后 文 ) 


此 外 ，socket 的 基础 API 中 有 一 个 socketpair 函 数 。 它 能 够 方便 地 创 
建 双 回 管 道 。 其 定义 如 下 : 
#include<sys/types.h> 


#include<sys/socket.h> 
int socketpair(int domain,int type,int protocol,int fd[2]); 


socketpair 前 三 个 参数 的 含义 与 socket 系 统 调 用 的 三 个 参数 完全 相 
同 ， 但 domain 只 能 使 用 UNIX 本 地 域 协 议 族 AF_UNIX， 因 为 我 们 仅 能 
在 本 地 使 用 这 个 双 疝 管道 。 最 后 一 个 参数 则 和 pipe 系 统 调用 的 参数 一 
样 ， 只 不 过 socketpair 创 建 的 这 对 文件 描述 符 都 是 既 可 读 又 可 写 的 。 
socketpair 成 功 时 返回 0， 失 败 时 返回 -1 并 设置 errno。 


6.2 ”dup 函 数 和 dup2 函 数 


有 了 时 我 们 希望 把 标准 输入 重 定 同 到 一 个 文件 ， 或 者 把 标准 输出 重 
定 问 到 一 个 网 络 连 接 (比如 CGI 编 程 ，。 这 可 以 通过 下 面 的 用 于 复制 
文件 搬 述 符 的 dup 或 dup2 函 数 来 实现 : 


#include<unistd.h> 
int dup(int file_ descriptor ) ; 
int dup2(int file descriptor_one,int file descriptor_two); 
dup 函 数 创 建 一 个 新 的 文件 描述 符 ， 该 新 文件 描述 符 和 原 有 文件 描 
述 符 fle_descriptor 指 回 相 同 的 文件 、 管 道 或 者 网 络 连接 。 并 且 dup 返 回 
的 文件 描述 符 总 是 取 系 统 当前 可 用 的 最 小 整数 值 。dup2 和 dup 类 似 ， 不 
过 它 将 返回 第 一 个 不 小 于 他 e_descriptor_two 的 整数 值 。dup 和 dup2 系 统 


调用 失败 时 返回 -1 并 设置 errno 。 


注意 ， 通 过 dup 和 dup2 创 建 的 文件 描述 符 并 不 继承 原文 件 描述 符 的 
属性 ， 比 如 close-on-exec 和 non-blocking 等 。 


代码 清单 6-1 利 用 dup 函 数 实现 了 一 个 基本 的 CGI 服务 器 。 
代码 清单 6-1 CGI 服务 器 原理 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 


#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
int main(int argc,char*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof (address ) ) ; 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK STREAM,0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client ， 

socklen _t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 


printf("errno is:%d\n",errno); 


} 


else 


close(STDOUT_FILENO); 
dup(connfd); 
printf("abcd\n"); 
close(connfd); 


close(sock); 
return ©; 


} 


在 代码 清单 6-1 中 ， 我 们 先 关 闭 标准 输出 文件 描述 符 
STDOUT_FILENO (其 值 是 1) ， 然 后 复制 socket 文 件 描述 符 connfd 。 
因为 dup 总 是 返回 系统 中 最 小 的 可 用 文件 描述 符 ， 所 以 它 的 返回 值 实际 
上 是 1， 即 之 前 关闭 的 标准 输出 文件 描述 符 的 值 。 这 样 一 来 ， 服 务 器 输 
出 到 标准 输出 的 内 容 (这 里 是 “abcd”) 就 会 直接 发 送 到 与 客户 连接 对 
应 的 socket 上， 因此 printf 调 用 的 输出 将 被 客户 端 获 得 (而 不 是 显示 在 
服务 器 程序 的 终端 上 ) 。 这 就 是 CGI 服 务 器 的 基本 工作 原理 。 


6.3 readv 国 数 和 writev 团 数 


readv 函 数 将 数据 从 文件 描述 符 读 到 分 散 的 内 存 块 中 ， 即 分 散 读 ; 
writev 芳 数 则 将 多 块 分 散 的 内 存 数据 一 并 写 入 文件 摘 述 符 中 ， 即 集中 
写 。 它 们 的 定义 如 下 : 
#include<sys/uio.h> 


ssize _t readv(int fd,const struct iovec*vector,int count ) ; 
ssize t writev(int fd,const struct iovec*vector,int count); 


fd 参数 是 被 操作 的 目标 文件 搬 述 人 特 。vector 参 数 的 类 型 是 iovec 结 构 
数组 。 我 们 在 第 5 章 讨 论 过 结构 体 iovec， 该 结构 体 描述 一 块 内 存 区 。 
count 参 数 是 vector 数 组 的 长 度 ， 即 有 多 少 块 内 存 数据 需要 从 fd 读 出 或 
写 到 fd。readv 和 writev 在 成 功 时 返回 读 出 / 写 入 fd 的 字 节 数 ， 失 败 则 返 
回 -1 并 设置 errmo。 它 们 相当 于 简化 版 的 recvmsg 和 sendmsg 凡 数 。 


考虑 第 4 草 讨论 过 的 web 服务 硕 。 当 Web 服 务 硕 解析 完 一 个 HTTP 
请 求 之 后 ， 如 果 目 标 文档 存在 且 客 户 具有 读 取 该 文档 的 权限 ， 那 么 它 
就 需要 发 送 一 个 HTTP 应 答 来 传输 该 文档 。 这 个 HTTP 应 答 包含 1 个 状态 
行 、 多 个 头 部 字段 、1 个 空 行 和 文档 的 内 容 。 其 中 ， 前 3 部 分 的 内 容 可 
能 被 web 服务 器 放置 在 一 块 内存 中 ， 而 文档 的 内 容 则 通常 被 读 入 到 另 
外 一 块 单独 的 内 存 中 (通过 read 范 数 或 mmap 函 数 ) 。 我 们 并 不 需要 把 


这 两 部 分 内 容 拼接 到 一 起 再 发 送 ， 而 是 可 以 使 用 writev 函 数 将 它们 同 
时 写 出 ， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 Web 服务 右上 的 集中 写 


#include<sys/socket.h> 

#include<netinet/in.h> 

#include<arpa/inet.h> 

#include<assert.h> 

#include<stdio.h> 

#include<unistd.h> 

#include< stdlib.h> 

#include<errno.h> 

#include<string.h> 

#include<sys/stat.h> 

#include<sys/types.h> 

#include<fcntl.h> 

#define BUFFER_ SIZE 1024 

/* 定 义 两 种 HTTP 状 态 码 和 状态 信息 */ 

static const char*status_ line[2]={"200 OK", "500 Internal server 
error"}; 

int main(int argc,char*argv[]) 


if(argc<=3) 


printf("usage:%s ip_address port_number 
filename\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

/* 将 目标 文件 作为 程序 的 第 三 个 参数 传 入 */ 

const char*file name=argv[3]; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK STREAM,0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 


assert(ret!=-1); 

struct sockaddr_in client; 

socklen _t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 


printf("errno is:%d\n",errno); 


上 


else 

{ 

/* 用 于 保存 HTTP 应 答 的 状态 行 、 头 部 字段 和 一 个 空 行 的 缓存 区 */ 
char header_buf[BUFFER_SIZE]; 

memset(header_buf, '\0',BUFFER_ SIZE); 

/* 用 于 存放 目标 文件 内 容 的 应 用 程序 缓存 */ 

char*file_buf; 
/* 用 于 获取 目标 文件 的 属性 ， 比 如 是 否 为 目录 ， 文 件 大 小 等 */ 
struct Stat file stat; 

/* 记 录 目 标 文 件 是 否 是 有 效 文件 */ 
bool valid=true; 
/* 缓 存 区 header_buf 目 前 已 经 使 用 了 多 少 字 节 的 空间 */ 

int len=0; 

if(stat(file_name, 多 file_stat)<0)/* 目 标 文件 不 存在 */ 


valid=false; 


} 


else 


{ 
if(S_ISDIR(file_stat.st_mode))/* 目 标 文件 是 一 个 目录 */ 


valid=false; 


} 

else if(file_ stat.st _mode&S_IROTH)/* 当 前 用 户 有 读 取 目标 文件 的 权限 */ 

{ 

/* 动 态 分 配 缓 存 区 file_buf， 并 指定 其 大 小 为 目标 文件 的 大 小 file_stat .st_size 
加 1， 然 后 将 目标 文件 读 入 缓存 区 file_buf 中 */ 

int fd=open(file_name,O_RDONLY); 

file_buf=new char[file_ stat.st_ size+1]; 

memset(file buf,'\0',file stat.st_ size+1); 

if(read(fd,file buf,file stat.st_ size)<0) 


valid=false; 
} 
} 


else 


valid=false; 


} 


} 

/* 如 果 目 标 文件 有 效 ， 则 发 送 正常 的 HTTP 应 答 */ 

if(valid) 

{ 

/x* 下 面 这 部 分 内 容 将 HTTP 应 答 的 状态 行 、“Content -Length” 头 部 字段 和 一 个 空 行 依 
次 加 入 header_buf 中 */ 

ret=Ssnprintf(header_buf, BUFFER_SIZE - 
1,"%s%s\r\n", "HTTP/1.1", status_line[0]); 

len+=ret; 

ret=snprintf(header_buf+len,BUFFER_SIZE-1-len,"Content- 
Length:%d\r\n",file_ stat.st_ size); 

len+=ret; 

ret=snprintf(header_buf+len,BUFFER_ SIZE-1-len,"%s","\r\n"); 

/* 利 用 writev 将 header_buf 和 file_buf 的 内 容 一 并 写 出 */ 

struct iovec iv[2]; 

iv[0].iov_base=header_buf; 

iv[0].iov_len=strlen(header_buf); 

iv[1].iov_base=file_buf; 

iv[1].iov_len=file_ stat.st_ size; 

ret=writev(connfd, iv,2); 


} 
else/* 如 果 目 标 文件 无 效 ， 则 通知 客户 端 服务 器 发 生 了 “内 部 错误 ”*/ 
{ 
ret=snprintf(header_buf,BUFFER_SIZE- 
1,"%s%s\r\n", "HTTP/1.1", status_line[1]); 
len+=ret; 
ret=snprintf(header_buf+len,BUFFER_ SIZE-1-len,"%s","\r\n"); 
send(connfd, header_buf, strlen(header_buf),0); 


close(connfd ) ; 
delete[]jfile_buf; 


close(sock); 
return ©; 


} 


代码 清单 6-2 中 ， 我 们 省 略 了 HTTP 请 求 的 接收 及 解析 ， 因 为 现在 
关注 的 重点 是 HTTP 应 答 的 发 送 。 我 们 直接 将 目标 文件 作为 第 3 个 参数 
传递 给 服务 器 程序 ， 客 户 telnet 到 该 服务 器 上 即 可 获得 该 文件 。 关 于 
HTTP 请 求 的 解析 ， 我 们 将 在 第 8 章 给 出 相关 代码 。 


6.4 sendfile 函 效 


sendfile 函 数 在 两 个 文件 描述 符 之 间 直 接 传 递 数据 (完全 在 内 核 中 
操作 ) ， 从 而 避免 了 内 核 缓冲 区 和 用 户 缓冲 区 之 间 的 数据 拷贝 ， 效 率 
很 高 ， 这 被 称 为 去 拷贝 。sendfile 函 数 的 定义 如 下 : 

#include<sys/sendfile.h> 


ssize t sendfile(int out_ fd,int in_fd,off_t*offset,size t 
count ) ; 


in_fq 参 数 是 等 读 出 内 容 的 文件 描述 符 ，out_fd 参 数 是 待 写 入 内 容 
的 文件 描述 符 。offset 参 数 指 定 从 读 入 文件 流 的 哪个 位 置 开 始 读 ， 如 果 
为 宇 ， 则 使 用 读 入 文件 流 默认 的 起 始 位 置 。count 参 数 指定 在 文件 描述 
符 in_fd 和 out_fd 之 间 传 输 的 字 市 数 。sendfile 成 功 时 返回 传输 的 子 贡 
数 ， 失 败 则 返回 -1 并 设置 ermo。 该 琅 数 的 man 手 册 明 确 指出 ，in_fd 必 
须 是 一 个 支持 类 似 mmap 函 数 的 文件 接 述 符 ， 即 它 必须 指向 真实 的 文 
件 ， 不 能 是 socket 和 管道 ， 而 out_fd 则 必须 是 一 个 socket。 由 此 可 见 ， 
sendfile 儿 乎 是 专门 为 在 网 络 上 传输 文件 而 设计 的 。 下 面 的 代码 清单 6-3 
利用 sendfile 函 数 将 服务 右上 的 一 个 文件 传送 给 客户 端 。 


代码 清单 6-3 ”用 sendfile 函 数 传输 文件 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 


#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include< stdlib.h> 
#include<errno.h> 
#include<string.h> 
#include<sys/types.h> 
#include<sys/stat.h> 
#include<fcntl.h> 
#include<sys/sendfile.h> 
int main(int argc,char*argv[]) 


if(argc<=3) 


printf("usage:%s ip_address port_number 
filename\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

const char*file name=argv[3]; 

int filefd=open(file_name,O_ RDONLY); 

assert(filefd>0); 

struct stat stat_buf; 

fstat(filefd, stat_ buf); 

struct sockaddr_in address; 

bzero(&address, sizeof (address ) ) ; 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_ STREANM,0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client ， 

socklen _t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 


printf("errno is:%d\n",errno); 


} 


else 


sendfile(connfd,filefd,NULL, stat_buf.st_size); 
close(connfd); 


close(Sock ) ; 
return ©; 


} 


代码 清单 6-3 中 ， 我 们 将 目标 文件 作为 第 3 个 参数 传递 给 服务 器 程 
序 ， 客 户 telnet 到 该 服务 器 上 即 可 获得 该 文件 。 相 比 代 码 清单 6-2， 代 
码 清单 6-3 没 有 为 目标 文件 分 配 任 何 用 户 空 间 的 绥 存 ， 也 没有 执行 读 取 
文件 的 操作 ， 但 同样 实现 了 文件 的 发 送 ， 其 效率 显然 要 高 得 多 。 


6.5 mmap 函 效 和 munmap 函 效 


mmap 函 数 用 于 申请 一 段 内 存 鹤 间 。 我 们 可 以 将 这 段 内 存 作为 进程 
间 通 信 的 共 至 内 存 ， 也 可 以 将 文件 直接 映射 到 其 中 。munmap 画 数 则 释 
放 由 mmap 创 建 的 这 段 内 存 空间 。 它 们 的 定义 如 下 : 


#include<sys/mman.h> 

void*mmap(void*start,size t length,int prot,int flags, Int 
fd,off_t offset); 

int munmap(void*start,size_t length); 


start 参 数 允 许 用 户 使 用 某 个 特定 的 地 址 作为 这 段 内 存 的 起 始 地 址 。 
如 果 它 被 设置 成 NULL， 则 系统 自动 分 配 一 个 地 址 。length 参 数 指定 内 
存 段 的 长 度 。prot 人 参数 用 来 设置 内 存 段 的 访问 权限 。 它 可 以 取 以 下 几 个 
值 的 按 位 或 : 


DPROT_READ， 内 存 段 可 读 。 
口 PROT_WRITE， 内 存 段 可 写 。 
DPROT_EXEC， 内 存 段 可 执行 。 


DPROT_NONE， 内 存 段 不 能 被 访问 。 


flags 参 数控 制 内 存 段 内 容 被 修改 后 程序 的 行为 。 它 可 以 被 设置 为 
表 6-1 中 的 某 些 值 《这 里 仅 列 出 了 常用 的 值 ) 的 按 位 或 (其 中 


MAP _ SHARED 和 MAP PRIVATE 是 互 斥 的 ， 不 能 同时 指定 ) 。 


表 6-1 mmap 的 flags 参数 的 常用 值 及 其 含义 

常用 值 合 六 

在 进程 间 共 享 这 段 内 存 。 对 该 内 存 段 的 修改 将 反映 到 被 映射 的 文件 中 。 它 提供 了 进程 
间 共 享 内 存 的 POSIX 方法 
MAP _ PRIVATE 内 存 段 为 调用 进程 所 私有 。 对 该 内 存 段 的 修改 不 会 反映 到 被 映射 的 文件 中 

这 段 内 存 不 是 从 文件 映射 而 来 的 。 其 内 容 被 初始 化 为 全 0。 这 种 情况 下 ，mmap 函数 
的 最 后 两 个 参数 将 被 忽略 

内 存 段 必须 位 于 start 参数 指定 的 地 址 处 。start 必须 是 内 存 页 面 大 小 “4096 字 节 ) 的 


MAP SHARED 


MAP _ ANONYMOUS 


MAP FIXED 


MAP HUGETLB eS 存 页面 ” 来 分 配 内 存 空 间 。“ 大 内 存 页 面 ” 的 大 小 可 通过 /proc/meminfo 文 


fd 参数 是 被 映射 文件 对 应 的 文件 描述 符 。 它 一 般 通 过 open 系 统 调 用 
获得 。offset 参 数 设置 从 文件 的 何 处 开始 映射 〈 对 于 不 需要 读 入 整个 文 
件 的 情况 ) 。 


mmap 函 数 成 功 时 返回 指 癌 目标 内 存 区 域 的 指针 ， 失 败 则 返回 
MAP_FAILED ((void*)-1) 并 设置 errno。munmap 画 数 成 功 时 返回 0， 
失败 则 返回 -1 并 设置 errno。 


我 们 将 在 第 13 章 进一步 讨论 如 何 利 用 mmap 画 数 实现 进程 间 共 至 内 
存 。 


6.6 splice 函 效 


splice 函 数 用 于 在 两 个 文件 摘 述 符 之 间 移 动 数据 ， 也 是 零 捞 贝 操 
作 。splice 函 数 的 定义 如 下 : 


#include<fcntl.h> 
ssize_t splice(int fd_in,1Loff_ tx*off_in, Int 
fd_out, loff_t*off_out,size t len,unsigned int flags); 


fd_in 参 数 是 待 输入 数据 的 文件 描述 符 。 如 果 fd_in 是 一 个 管道 文件 
描述 符 ， 那 么 offt_ip 参 数 必须 被 设置 为 NULL。 如 采 fd_in 不 是 一 个 管道 
文件 描述 符 (比如 socket) ， 那 么 off_in 表 示 从 输入 数据 流 的 何 处 开始 
读 取 数据 。 此 时 ， 若 off_in 被 设置 为 NULL， 则 表示 从 输入 数据 流 的 当 
前 偏 移 位 置 读 入 ; 若 off_in 不 为 NULL， 则 它 将 指出 具体 的 偏 移 位 置 。 
fd_out/off_out 参 数 的 含义 与 fd_in/offt_ in 相同 ， 不 过 用 于 输出 数据 流 。len 
参数 指定 移动 数据 的 长 度 ; flags 人 参数 则 控制 数据 如 何 移动 ， 它 可 以 被 
设置 为 表 6-2 中 的 某 些 值 的 按 位 或 。 


表 6-2 splice 的 flags 参数 的 常用 值 及 其 含义 


常用 值 含 义 
如 果 合 适 的 话 ， 按 整 页 内 存 移动 数据 。 这 只 是 给 内 核 的 一 个 提示 。 不 过 ， 因 为 它 


SPLICE F MOVE qe | 
人 的 实现 存在 BUG， 所 以 自 内 核 2.6.21 后 ， 它 实际 上 没有 任何 效果 


SPLICE F NONBLOCK 非 阻 塞 的 splice 操作 ， 但 实际 效果 还 会 受 文件 描述 符 本 身 的 阻塞 状态 的 影响 
SPLICE F MORE 给 内 核 的 一 个 提示 : 后 续 的 splice 调用 将 读 取 更 多 数据 


SPLICE F_GIFT 对 splice 没有 效果 


使 用 splice 函 数 时 ，fd_in 和 fdq_out 必 须 至 少 有 一 个 是 管道 文件 描述 
从。splice 芳 数 调 用 成 功 时 返回 移动 字 广 的 数量 。 它 可 能 返回 0， 表示 没 
有 数据 需要 移动 ， 这 发 生 在 从 管道 中 读 取 数 据 (fd_in 是 管道 文件 描述 
符 ) 而 该 管道 没有 被 写 入 任何 数据 时 。splice 函 数 失 败 时 返回 -1 并 设置 
errno。 常 见 的 errno 如 表 6-3 所 示 。 


表 6-3 splice 函数 可 能 产生 的 errno 及 其 含义 
错 误 条 义 
EBADF 参数 所 指 文件 描述 符 有 错 
目标 文件 系统 不 支持 splice， 或 者 目标 文件 以 追加 方式 打开 ， 或 者 两 个 文件 描述 符 都 不 是 管道 文 
件 描述 符 ， 或 者 某 个 offset 参数 被 用 于 不 支持 随机 访问 的 设备 (比如 字符 设备 ) 
ENOMEM 内 存 不 够 
ESPIPE 参数 fd_in (或 fd_out) 是 管道 文件 描述 符 ， 而 off in (或 off_out) 不 为 NULL 


EINVAL 


下 面 我 们 使 用 splice 函 数 来 实现 一 个 零 搁 贝 的 回 射 服务 大 ， 它 将 客 
户 端 发 送 的 数据 原样 返回 给 客户 端 ， 有 具体 实现 如 代码 请 单 6-4 所 示 。 


代码 清单 6-4 ”使 用 splice 范 数 实现 的 回 射 服务 器 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include< stdio.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
#include<fcnt1l.h> 

int main(int argc,char*argv[]) 


{ 
if(argc<=2) 
{ 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof(address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK_STREANM, 0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address,sizeof(address)); 

assert(ret!=-1); 

ret=]listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client; 

socklen_t client_addrlength=sizeof(client); 

int connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 


printf("errno is:%d\n",errno); 


} 


else 


{ 

int pipefd[2]; 

assert(ret!=-1); 

ret=pipe(pipefd);/* 创 建 管道 */ 

/* 将 connfd 上 流入 的 客户 数据 定向 到 管道 中 */ 

ret=splice(connfd,NULL,pipefd[1],NULL,32768,SPLICE_F_MORE|SPLICE_ 
F_MOVE); 

assert(ret!=-1); 

/* 将 管道 的 输出 定向 到 connfd 客 户 连 接 文 件 描述 符 */ 

ret=splice(pipefd[90],NULL,connfd,NULL, 32768, SPLICE_F_MORE|SPLICE_ 
F_MOVE); 

assert(ret!=-1); 

close(connfd); 


close(sock); 
return 0; 


} 


我 们 通过 splice 函 数 将 客户 端的 内 容 读 入 到 pipefd[1] 中 ， 然 后 再 使 
用 splice 了 范 数 从 pipefd[0] 中 读 出 该 内 容 到 客户 端 ， 从 而 实现 了 简单 高 效 


的 回 射 服务 。 整 个 过 程 未 执行 recv/send 操 作 ， 因 此 也 未 涉及 用 户 空间 和 
内 核 空 间 之 间 的 数据 拷贝 。 


6.7 tee 函 数 


tee 芳 数 在 两 个 管道 文件 描述 符 之 间 复 制 数据 ， 也 是 零 拷 贝 操作 。 
它 不 消耗 数据 ， 因 此 源 文件 描述 符 上 的 数据 仍然 可 以 用 于 后 续 的 读 操 
作 。tee 函 数 的 原型 如 下 : 


#include<fcntl.h> 
ssize t tee(int fd _ in,int fd _ out,size t len,unsigned int flags); 


该 函数 的 参数 的 含义 与 splice 相 同 (但 fd_in 和 fd_out 必 须 都 是 管道 


文件 描述 符 ) 。tee 函 数 成 功 时 返回 在 两 个 文件 描述 符 之 间 复 制 的 数据 
数量 ( 字 节 数 ) 。 返 回 0 表示 没有 复制 任何 数据 。tee 失 败 时 返回 -1 并 设 


代码 清单 6-5 利 用 tee 函 数 和 splice 函 数 ， 实 现 了 Linux 下 tee 程 序 ( 同 
时 输出 数据 到 终端 和 文件 的 程序 ， 不 要 和 tee 函 数 混 淆 ) 的 基本 功能 。 


代码 清单 6-5 ”同时 输出 数据 到 终端 和 文件 的 程序 


//filename:tee.cpp 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 

int main(int argc,char*argv[]) 


{ 


if(argc!=2) 


printf("usage:%s<file>\n",argv[0]); 
return 1; 


int filefd=open(argv[1],0_CREAT|O_WRONLY|O_TRUNC, 0666 ) ; 

assert(filefd>0); 

int pipefd_stdout[2]; 

int ret=pipe(pipefd_stdout); 

assert(ret!=-1); 

int pipefd_ file[2]; 

ret=pipe(pipefd_ file); 

assert(ret!=-1); 

/* 将 标准 输入 内 容 输入 管道 pipefd_stdout*/ 

ret=splice(STDIN_FILENO, NULL, pipefd_stdout[1],NULL, 32768, SPLICE_ 
F_MORE|SPLICE_F_MOVE); 

assert(ret!=-1); 

/* 将 管道 pipefd_stdout 的 输出 复制 到 管道 pipefd_file 的 输入 端 */ 

ret=tee(pipefd_stdout[0],pipefd file[1],32768,SPLICE _F_NONBLOCK) 


assert(ret!=-1); 

/* 将 管道 pipefd_file 的 输出 定向 到 文件 描述 符 filefd 上 ， 从 而 将 标准 输入 的 内 容 写 
入 文件 */ 

ret=splice(pipefd file[0],NULL,filefd,NULL,32768,SPLICE_F_MORE|S 
PLICE_F_MOVE); 

assert(ret!=-1); 

/* 将 管道 pipefd_stdout 的 输出 定向 到 标准 输出 ， 其 内 容 和 写 入 文件 的 内 容 完 全 一 致 
* 

ret=splice(pipefd_stdout[90],NULL,STDOUT_FILENO, NULL, 32768, SPLICE 
_F_MORE|SPLICE_F_MOVE); 

assert(ret!=-1); 

close(filefd); 

close(pipefd_stdout[0]); 

close(pipefd_stdout[1]); 

close(pipefd_ file[0]); 

close(pipefd_file[1]); 

return ©; 


} 


6.8 fcnt 范 数 


fcnt 函 数 ， 正 如 其 名 字 (file control) 描述 的 那样 ， 提 供 了 对 文件 
描述 符 的 各 种 控制 操作 。 另 外 一 个 浓 见 的 控制 文件 摘 述 符 属 性 和 行为 
的 系统 调用 是 ioctl， 而 且 ioctl 比 fcntl 能 够 执行 更 多 的 控制 。 但 是 ， 对 于 
控制 文件 描述 符 常 用 的 属性 和 行为 ，fcntl 函 数 是 由 POSIX 规 范 指 定 的 首 
选 方法 。 所 以 本 书 仅 讨 论 fcnd 画 数 。fcntl 函 数 的 定义 如 下 : 


#include<fcntl.h> 
int fcntl(int fd,int cmd,...); 


fd 参数 是 被 操作 的 文件 描述 符 ，cmd 参 数 指定 执行 何 种 类 型 的 操 
作 。 根 据 操作 类 型 的 不 同 ， 该 画 数 可 能 还 需要 第 三 个 可 选 参数 arg 。 
fcnt 函 数 文 持 的 解 用 操作 及 其 参数 如 表 6-4 所 示 。 


表 6-4 fcntl 支持 的 常用 操作 及 其 参数 


第 三 个 参数 
操作 分 类 操 作 含 义 的 类 型 成 功 时 的 返回 值 
审 建 一 个 新 的 文件 描述 符 ， 其 值 大 新 创建 的 文件 描述 符 
F_DUPFD 创建 新 的 文件 描述 符 ， 其 值 大 于 新 创建 的 文件 措 述 和 
复制 文件 描述 或 等 于 arg 的 值 
符 F_DUPFD_ 与 F_DUPFD 相似 ， 不 过 在 创建 文件 描 和 新 创建 的 文件 描述 符 
CLOEXEC ”| 述 符 的 同时 ， 设 置 其 close-on-exec 标志 8 | 的 值 
Y 4 未 志 ， -On- 加 
获取 和 设置 文 F_GETFD We fd 的 标 比如 close-on-exec 必 的 栋 才 
-二 本、 RA 4 示 志 NA 
ot F_SETFD 设置 伺 的 标志 ong | 0 
获取 fd 的 状态 标志 ， 这 些 标 志 包 括 
可 由 open 系统 调用 设置 的 标志 (O_ 
获取 和 设置 文 | F_GETFL |APPEND、O_CREAT 等 ) 和 访问 模 void 但 的 状态 标志 
件 描述 符 的 状态 式 (O_ RDONLY、O_WRONLY 和 0O_ 
标志 RDWR) 


设置 fd 的 状态 标志 ， 但 部 分 标志 是 不 
能 被 修改 的 (比如 访问 模式 标志 ) 

获得 SIGIO 和 SIGURG 信号 的 宿主 进 
程 的 PID 或 进程 组 的 组 ID 

设 定 SIGIO 和 SIGURG 信号 的 宿主 进 
程 的 PID 或 者 进程 组 的 组 ID 

获取 当 应 用 程序 被 通知 fd 可 读 或 可 写 
时 ， 是 哪个 信号 通知 该 事件 的 

设置 当 fd 可 读 或 可 写 时 ， 系 统 应 该 触 
发 哪个 信号 来 通知 应 用 程序 


be 


F_SETFL long 


信号 的 宿主 进程 的 


F GETOWN 
PID 或 进程 组 的 组 ID 


F_SETOWN 


管理 信号 
信号 值 ，0 表示 


F_GETSIG 
SIGIO 


b= 


F_SETSIG 


b= 


成 功 时 的 返回 值 


设置 由 {4 指定 的 管道 的 容量 。/proc/sys/ 
fs/pipe-size-max 内 核 参数 指定 了 fcntl 能 设 0 
置 的 管道 容量 的 上 限 


SZ 


fcnt 函 数 成 功 时 的 返回 值 如 表 6-4 最 后 一 列 所 示 ， 失 败 则 返回 -1 并 
设置 errno 。 


在 网 络 编程 中 ，fcnt 函 数 通常 用 来 将 一 个 文件 描述 符 设置 为 非 阻塞 
的 ， 如 代码 清单 6-6 所 示 。 


代码 清单 6-6 ”将 文件 插 述 符 设 置 为 非 阻塞 的 


int setnonblocking(int fd) 


{ 

int old_option=fcntl(fd,F_GETFL);/* 获 取 文 件 描 述 符 旧 的 状态 标志 */ 
int new_option=01ld_option|0_NONBLOCK;/* 设 置 非 阻塞 标志 */ 
fcntl(fd,F_SETFL,new_option); 

return 01d_option;/* 返 回 文件 描述 符 旧 的 状态 标志 ， 以 便 */ 

/* 日 后 恢复 该 状态 标志 */ 

} 


此 外 ，SIGIO 和 SIGURG 这 两 个 信号 与 其 他 Linux 信 和 号 不 同 ， 它 们 必 
须 与 某 个 文件 描述 符 相 关联 方 可 使 用 : 当 被 关联 的 文件 描述 符 可 读 或 
可 写 时 ， 系 统 将 触发 SIGIO 信 号 ; 当 被 关联 的 文件 描述 符 (而 且 必 须 是 
一 个 socket) 上 有 带 外 数据 可 读 时 ， 系 统 将 触发 SIGURG 信 和 号。 将 信和 号 
和 文件 描述 符 关 联 的 方法 ， 就 是 使 用 fcnd 郴 数 为 目标 文件 描述 符 指定 宿 
主 进程 或 进程 组 ， 那 么 被 指定 的 宿主 进程 或 进程 组 将 捕获 这 两 个 信 
号 。 使 用 SIGIO 时 ， 还 需要 利用 fcntl 设 置 其 O_ASYNC 标 志 (异步 WO 标 
志 ， 不 过 SIGIO 信 号 模型 并 非 真 正 意义 上 的 异步 1/O 模 型 ， 见 第 8 章 ) 。 
关于 信号 SIGURG 的 更 多 内 容 ， 我 们 将 在 第 10 章 讨论 。 


第 7 章 ”Linux 服 务 促 程序 规范 


除了 网 络 通 信 外 ， 服 务 器 程序 通常 还 必须 考虑 许多 其 他 细 市 问 
题 。 这 些 细 世 问题 涉及 面 广 且 零碎 ， 而 且 基 本 上 是 模板 式 的 ， 所 以 我 
们 称 之 为 服务 器 程序 规范 。 比 如 : 


DLinux 服 务 器 程序 一 般 以 后 合 进程 形式 运行 。 后 台 进 程 义 称 守 护 
进程 (daemon) 。 它 没有 控制 终端 ， 因 而 也 不 会 意外 接收 到 用 户 输 
入 。 守 护 进 程 的 父 进 程 通常 是 init 进 程 (PID 为 1 的 进程 ) 。 


口 Linux 服 务 器 程序 通常 有 一 套 日 志 系统 ， 它 至 少 能 输出 日 志 到 文 


进程 都 在 /var/log 目 好 下 拥有 自己 的 日 志 目 隶 。 


DLinux 服 务 器 程序 一 般 以 某 个 专门 的 非 root 身 份 运行 。 比 如 
mysqld、httpd、syslogd 等 后 台 进 程 ， 分 别 拥有 目 己 的 运行 账户 mysql、 


apache 和 syslog。 


DLinux 服 务 器 程序 通常 是 可 配置 的 。 服 务 器 程序 通常 能 处 理 很 多 
命令 行 选项 ， 如 采 一 次 运行 的 选项 太 多 ， 则 可 以 用 配置 文件 来 管理 。 
绝 大 多 数 服务 器 程序 都 有 配置 文件 ， 并 存放 在 /etc 目 孙 下 。 比 如 第 4 章 
讨论 的 squid 服 务 句 的 配置 文件 是 /etc/squid3/squid.conf 。 


口 Linux 服 务 书 进程 通常 会 在 局 动 的 时 候 生 成 一 个 PID 文 件 并 存 
入 /varrun 目 孙 中 ， 以 记录 该 后 人 台 进 程 的 PID。 比 如 syslogd 的 PID 文 件 
是 /Var/run/syslogd.pid 。 


DLinux 服 务 器 程序 通常 需要 考虑 系统 资源 和 限制 ， 以 预测 自身 能 
承受 多 大 仙 傈 ， 比 如 进程 可 用 文件 搬 述 符 辟 数 和 内 存 尽量 所 


在 开始 系统 地 学 习 网 络 编程 之 前 ， 我 们 将 用 一 章 的 篇 幅 来 探讨 服 
务 器 程序 的 一 些 主要 的 规范 。 


1 上 月 总 
7.1.1 Linux 系 统 日 志 
欲 善 其 事 ， 必 先 利 其 器 。 服 务 器 的 调试 和 维护 都 需要 一 个 专业 


的 日 志 系 统 。Linux 提 供 一 个 守护 进程 来 处 理 系 统 日 志 一 一 syslogd， 不 
过 现在 的 Linux 系 统 上 使 用 的 都 古 它 的 升级 版 


rsyslogd ° 


Isyslogd 守 护 进 程 既 能 接收 用 户 进程 输出 的 日 志 ， 又 能 接收 内 核 日 

。 用 户 进 程 是 通过 调用 syslog 函 数 生 成 系统 日 志 的 。 该 本 数 将 日 志 输 
出 到 一 个 UNIX 本 地 域 socket 类 型 (AF_UNIX) 的 文件 /dev/log 中 ， 
rsyslogd 则 监听 该 文件 以 获取 用 户 进程 的 输出 。 内 核 日 志 在 老 的 系统 
是 通过 另外 一 个 守护 进程 zklogd 来 管理 的 ，rsyslogd 利 用 额外 的 模块 实 


现 了 相同 的 功能 。 内 核 日 志 由 printk 等 函数 打印 至 内 核 的 环 状 缓存 
(ring buffer) 中 。 环 状 缓存 的 内 容 直接 映射 到 /proc/kmsg 文 件 中 。 
rsyslogd 则 通过 读 取 该 文件 获得 内 核 日 志 。 


rsyslogd 和 守护 进程 在 接收 到 用 户 进程 或 内 核 输入 的 日 志 后 ， 会 把 它 
们 输出 至 某 些 特定 的 日 志文 件 。 黑 认 情 况 下 ， 调 试 信息 会 保存 
至 /var/log/debug 文 件 ， 普 通信 息 保 存 至 /var/log/messages 文 件 ， 内 核 消 
轧 则 保存 至 /vavlog/kern.log 文 件 。 不 过 ， 日 志 信 息 具 体 如 何 分 发 ， 可 以 
在 rsyslogd 的 配置 文件 中 设置 。rsyslogd 的 主 配置 文件 
是 /etc/rsyslog.conf， 其 中 主要 可 以 设置 的 项 包括 : 内核 日 志 输 入 路 径 ， 
是 否 接收 UDP 日 志 及 其 监听 端口 (默认 是 514， 见 /etc/services 文 件 ) ， 
是 否 接收 TCP 日 志 及 其 监听 端口 ， 日 志文 件 的 权限 ， 包 含 哪些 子 配置 文 
件 (比如 /etc/rsyslog.d/*.conf) 。rsyslogd 的 子 配置 文件 则 指定 各 类 日 志 
的 目标 存储 文件 。 


图 7-1 总 结 了 Linux 的 系统 日 志 体 系 。 


dmesg 


pe0,| 两 核 环 状 妥 存 


/proc/kmsg 


syslo 
用 户 过 程 ysiog0 /dev/log syslogd 


图 7-1 Linux 系 统 日 志 


7.1.2 ”syslog 函 数 


应 用 程序 使 用 syslog 范 数 与 rsyslogd 守 护 进程 通信 。syslog 范 数 的 定 


义 几 下 


#include<syslog.h> 
void syslog(int priority,const char*message,...); 


该 函数 采用 可 变 参 数 (第 二 个 参数 message 和 第 三 个 参数 ...) 来 结 
构 化 输出 。Ppriority 参 数 是 所 谓 的 设施 值 与 日 志 级 别 的 按 位 或 。 设 施 值 
的 默认 值 是 LOG_USER， 我 们 下 面 的 讨论 也 只 限于 这 一 种 设施 值 。 日 
志 级 别 有 如 下 几 个 : 


#include<syslog.h> 


#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 


LOG_EMERG 0/* 系 统 不 可 用 */ 
LOG_ALERT 1/* 报 警 ， 需 要 立即 采取 动作 */ 
LOG_CRIT 2/* 非 常 严 重 的 情况 */ 
LOG_ERR 3/* 错 误 */ 

LOG_WARNING 4/* 警 告 */ 

LOG_NOTICE 5/* 通 知 */ 

LOG_INFO 6/* 信 息 */ 

LOG_DEBUG 7/* 调 试 */ 


下面 这 


个 画 数 可 以 改变 syslog 的 默认 输出 方式 ， 进 一 步 结构 化 日 志 


#include<syslog.h> 
void openlog(const char*ident,int logopt,int facility); 


ident 参 数 指定 的 字符 串 将 被 添加 到 日 志清 居 的 日 期 和 时 间 之 后 ， 
通常 被 设置 为 程序 的 名 字 。1logopt 参 数 对 后 续 syslog 调 用 的 行为 进 
配置 ， 它 可 取 下 列 值 的 按 位 或 : 


#define LOG_PID 0x01/* 在 日 志 消 息 中 包含 程序 PID*/ 

#define LOG_CONS 0x02/* 如 果 消 息 不 能 记录 到 日 志文 件 ， 则 打印 至 终端 */ 
#define LOG_0DELAY 0x04/* 延 迟 打开 日 志 功 能 直到 第 一 次 调用 sys1og*/ 
#define LOG_NDELAY 0x08/* 不 延迟 打开 日 志 功 能 */ 


facility 参 数 可 用 来 修改 syslog 芳 数 中 的 默认 设施 值 。 


此 外 ， 日 志 的 过 滤 也 很 重要 。 程 序 在 开发 阶段 可 能 需要 输出 很 多 
调试 信息 ， 而 发 布 之 后 我 们 又 需要 将 这 些 调试 信息 关闭 。 解 决 这 个 问 
题 的 方法 并 不 是 在 程序 发 布 之 后 删除 调试 代码 (因为 日 后 可 能 还 需要 
用 到 ) ， 而 是 简单 地 设置 日 志 掩 码 ， 使 日 志 级 别 大 于 日 志 掩 码 的 日 志 
信息 被 系统 忽略 。 下 面 这 个 函数 用 于 设置 syslog 的 日 志 掩 码 : 


#include<syslog.h> 
int setlogmask(int maskpri); 


maskpri 参 数 指定 日 志 掩 码 值 。 该 函数 始终 会 成 功 ， 它 返回 调用 进 
程 先 前 的 日 志 掩 码 值 。 最 后 ， 不 要 和 起 了 使 用 如 下 男 数 关闭 日 志 功 能 


#include<syslog.h> 
void closelog(); 


7.2 ”用户 信息 


7.2.1 UID、 EUID、 GID 和 EGID 


用 户 信息 对 于 服务 器 程序 的 安全 性 来 说 是 很 重要 的 ， 比 如 大 部 分 
服务 器 就 必须 以 root 喘 份 启动 ， 但 不 能 以 root 身 份 运行 。 下 面 这 一 组 函 
数 可 以 获取 和 设置 当前 进程 的 真实 用 户 ID (UID) 、 有 效用 户 ID 

(EUID) 、 真 实 组 ID (GID) 和 有 效 组 ID (EGID) : 


#include<sys/types.h> 
#include<unistd.h> 

uid_t getuid();/* 获 取 真 实用 户 ID*/ 

uid_t geteuid();/* 获 取 有 效用 户 ID*/ 

gid_t getgid();/* 获 取 真 实 组 ID*/ 

gid_t getegid();/* 获 取 有 效 组 ID*/ 

int setuid(uid_t uid);/* 设 置 真实 用 户 ID*/ 
int seteuid(uid_t uid);/* 设 置 有 效用 户 ID*/ 
int setgid(gid_t gid);/* 设 置 真实 组 ID*/ 
int setegid(gid t gid);/* 设 置 有 效 组 ID*/ 


需要 指出 的 是 ， 一 个 进程 拥有 两 个 用 户 ID: UID 和 EUID 。EUID 
存在 的 目的 是 方便 资源 访问 : 它 使 得 运行 程序 的 用 户 拥有 该 程序 的 有 
效用 户 的 权限 。 比 如 su 程序 ， 任 何 用 户 都 可 以 使 用 它 来 修改 自己 的 账 
户 信 息 ， 但 修改 账户 时 su 程序 不 得 不 访问 /etc/passwd 文 件 ， 而 访问 该 
文件 是 需要 root 权 限 的 。 那 么 以 普通 用 户 喘 份 启动 的 su 程序 如 何 能 访 
问 /etc/passwd 文 件 呢 ? 窍门 就 在 EUID“。 用 ls 命令 可 以 查看 到 ，su 程 序 


的 所 有 者 是 root， 并 且 它 被 设置 了 set-user-id 标 志 。 这 个 标志 表示 ， 任 
何 普 通用 户 运 行 su 程 序 时 ， 其 有 效用 户 就 是 该 程序 的 所 有 者 root。 那 

么 ， 根 据 有 效用 户 的 含义 ， 任 何 运 行 su 程序 的 普通 用 户 都 能 够 访 

问 /etc/passwd 文 件 。 有 效用 户 为 root 的 进程 称 为 特权 进程 (privileged 

processes) 。EGID 的 含义 与 EUID 类 似 : 给 运行 目标 程序 的 组 用 户 提 
供 有 效 组 的 权限 。 


下 面 的 代码 清单 7-1 可 以 用 来 测试 进程 的 UID 和 EUID 的 区 别 。 
代码 清单 7-1 ”测试 进程 的 UID 和 EUID 的 区 别 


#ijnclude<unistd.h> 
#ijnclude<stdio.h> 
int main() 


uid_t uid=getuid(); 
uid_t euid=geteuid(); 


printf("userid is%d,effective userid is:%d\n",uid,euid); 
return 0; 


编译 该 文件 ， 将 生成 的 可 执行 文件 (名 为 test_uid) 的 所 有 者 设置 
为 root， 并 设置 该 文件 的 set-user-id 标 志 ， 然 后 运行 该 程序 以 查看 UID 
和 EUID。 具 体操 作 如 下 : 


$sudo chown root:root test_uid# 修 改 目标 文件 的 所 有 者 为 root 
$sudo chmod+s test_uid# 设 置 目标 文件 的 set -user-id 标 志 
$./test_uid# 运 行程 序 

userid is 1000,effective userid is:0 


从 测试 程序 的 输出 来 看 ， 进 程 的 UID 是 启动 程序 的 用 户 的 ID， 而 
EUID 则 是 root 账 户 (文件 所 有 者 ) 的 ID 。 


7.2.2 ”切换 用 户 


下 面 的 代码 清单 7-2 展 示 了 如 何 将 以 oot 身 份 启动 的 进程 切换 为 以 
一 个 普通 用 户 身份 运行 。 


代码 清单 7-2 切换 用 户 


static bool switch to user(uid t user_id,gid t gp_id) 


{ 
/* 先 确保 目标 用 户 不 是 root*/ 
if((user_id==0)&&(gp_ id==0)) 


return false; 


} 

/* 确 保 当 前 用 户 是 合法 用 户 : root 或 者 目标 用 户 */ 

gid_t gid=getgid(); 

uid_t uid=getuid(); 
if(((gid!=0)||(uid!=0))&&((gid!=gp_id)||(uid!=user_id))) 


return false; 


/* 如 果 不 是 root ， 则 已 经 是 目标 用 户 */ 
if(uid!=0) 
{ 


return true; 


} 

/* 切 换 到 目标 用 户 */ 
if((setgid(gp_id)<0)||(setuid(user_id)<0)) 
{ 


return false; 


} 


return true; 


7.3 ”进程 间 天 系 
7.3.1 ”进程 组 


Linux 下 每 个 进程 都 隶属 于 一 个 进程 组 ， 因 此 它们 除了 PID 信 息 
外 ， 还 有 进程 组 ID (PGID) 。 我 们 可 以 用 如 下 函数 来 获取 指定 进程 的 
PGID: 


#include<unistd.h> 
pid_t getpgid(pid t pid); 


该 范 数 成 功 时 返回 进程 pid 所 属 进程 组 的 PGID ， 失 败 则 返回 -1 并 设 


置 errno 8 


每 个 进程 组 都 有 一 个 首领 进程 ， 其 PGID 和 PID 相 同 。 进 程 组 将 一 
直 存在 ， 直 到 其 中 所 有 进程 都 退出 ， 或 者 加 入 到 其 他 进程 组 。 


下 面 的 函数 用 于 设置 PGID: 


#include<unistd.h> 
int setpgid(pid t pid,pid t pgid); 


该 函数 将 PID 为 pid 的 进程 的 PGID 设 置 为 pgid。 如 果 pid 和 pgid 相 
同 ， 则 由 pid 指 定 的 进程 将 被 设置 为 进程 组 首领 ， 如 果 pid 为 0， 则 表示 


设置 当前 进程 的 PGID 为 pgid; 如果 pgid 为 0， 则 使 用 pid 作 为 目标 
PGID。setpgid 函 数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


一 个 进程 只 能 设置 目 己 或 者 其 子 进程 的 PGID。 并 且 ， 当 子 进程 调 
用 exec 系 列 函数 后 ， 我 们 也 不 能 再 在 父 进 程 中 对 它 设置 PGID 。 
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一 些 有 关联 的 进程 组 将 形成 一 个 会 话 《session) 。 下 面 的 函数 用 
于 创建 一 个 会 话 : 


#include<unistd.h> 
pid_t setsid(void); 


该 男 数 不 能 由 进程 组 的 首领 进程 调用 ， 否 则 将 产生 一 个 错误 。 对 
于 非 组 首领 的 进程 ， 调 用 该 函数 不 仅 创建 新 会 话 ， 而 且 有 如 下 额外 效 
村 : 


口 调用 进程 成 为 会 话 的 首领 ， 此 时 该 进程 是 新 会 话 的 唯一 成 员 。 


口 新 建 一 个 进程 组 ， 其 PGID 就 是 调用 进程 的 PID ， 调 用 进程 成 为 该 
组 的 首领 。 


口 调用 进程 将 甩 开 终端 (如 有 果 有 的 话 ) 。 


该 函数 成 功 时 返回 新 的 进程 组 的 PGID ， 失 败 则 返回 -1 并 设置 


eIInO 


Linux 进 程 并 未 提供 所 谓 会 话 ID (SID) 的 概念 ， 但 Linux 系 统 认 为 
它 等 于 会 话 首领 所 在 的 进程 组 的 PGID， 并 提供 了 如 下 函数 来 读 取 
SID: 


#include<unistd.h> 
pid_t getsid(pid_t pid); 


7.3.3 ”用 ps 命令 查看 进程 天 系 


执行 ps 命令 可 查看 进程 、 进 程 组 和 会 话 之 间 的 关系 : 


$ps-o pid,ppid,pgid,sid,comm|less 
PID PPID PGID SID COMMAND 

1943 1942 1943 1943 bash 

2298 1943 2298 1943 ps 

2299 1943 2298 1943 less 


我 们 是 在 bash shell 下 执行 ps 和 1less 命 令 的 ， 所 以 ps 和 less 命 令 的 父 进 
程 是 bash 命 令 ， 这 可 以 从 PPID 〈 父 进程 PID) 一 列 看 出 。 这 3 条 命令 创 
建 了 1 个 会 话 (SID 是 1943) 和 2 个 进程 组 (PGID 分 别 是 1943 和 
2298) 。bash 命 令 的 PID、PGID 和 SID 都 相同 ， 很 明显 它 既 是 会 话 的 首 
领 ， 也 是 组 1943 的 首领 > ps 命令 则 是 组 2298 的 首领 ， 因 为 其 PID 也 是 
2298。 图 7-2 摘 述 了 此 三 者 的 关系。 


组 2298 


有 


进程 间 关 系 


7-2 


图 


7.4 系统 质 源 限制 


Linux 上 运行 的 程序 都 会 受到 资源 限制 的 影响 ， 比 如 物理 设备 限制 
(CPU 数量 、 内 存 数量 等 ) 、 系 统 策略 限制 《CPU 时 间 等 ) ， 以 及 具 
体 实现 的 限制 〈 比 如 文件 名 的 最 大 长 度 ) 。Linux 系 统 资源 限制 可 以 通 
过 如 下 一 对 函数 来 读 取 和 设置 : 


#include<sys/resource.h> 
int getrlimit(int resource,struct rlimit*rlim); 
int setrlimit(int resource,const struct rlimit*rlim); 


rlim 参 数 是 rlimit 结 构 体 类 型 的 指针 ，rlimit 结 构 体 的 定义 如 下 : 


struct rlimit 


rlim t rlim cur; 
rlim t rlim max; 


}; 


rlim_t 是 一 个 整数 类 型 ， 它 搬 述 仁 源 级 别 。rlim_cur 成 员 指定 资源 
的 软 限制 ，nim_max 成 员 指 定 资 源 的 硬 限制 。 软 限制 是 一 个 建议 性 
的 、 最 好 不 要 超越 的 限制 ， 如 采 超 起 的话 ， 系 统 可 能 回 进 程 发 送信 和 号 
以 终止 其 运行 。 例 如 ， 当 进程 CPU 时 间 超 过 其 软 限制 时 ， 系 统 将 向 进 
程 发 送 SIGXCPU 信 号 ; 当 文 件 斥 寸 超过 其 软 限制 时 ， 系 统 将 同 进 程 发 
送 SIGXFSZ 信 号 〈 见 第 10 章 ) 。 硬 限制 一 般 是 软 限制 的 上 限 。 普 通 程 
序 可 以 减 小 硬 限制 ， 而 只 有 以 root 身 份 运行 的 程序 才能 增加 硬 限制 。 此 


外 ， 我 们 可 以 使 用 ulimit 命 令 修改 当前 shell 环 境 下 的 资源 限制 〈 软 限制 


或 /和 硬 限制 ) 


这 种 修改 将 对 该 shell 启 动 的 所 有 后 续 程 序 有 效 。 我 们 


也 可 以 通过 修改 配置 文件 来 改变 系统 软 限制 和 硬 限制 ， 而 且 这 种 修改 


征 永 久 的 ， 详 情 匈 


见 第 16 草 。 


resource 参 数 指定 资源 限制 类 型 。 表 7-1 列 举 了 部 分 比较 重要 的 资源 


限制 类 型 。 


资源 限制 类 型 


RLIMIT_ AS 


RLIMIT_CORE 


RLIMIT_ CPU 
RLIMIT_ DATA 


RLIMIT_FSIZE 
RLIMIT NOFILE 


RLIMIT_NPROC 


RLIMIT_SIGPENDING 


RLIMIT_STACK 


表 7-1 getrlimit 和 setrlimit 支持 的 部 分 资源 限制 类 型 


含 义 

进程 虚拟 内 存 总 量 限制 (单位 是 字 节 )。 超 过 该 限制 将 使 得 某 些 函 数 〈 比 如 mmap) 
产生 ENOMEM 错误 

进程 核心 转 储 文件 〈《core dump) 的 大 小 限制 (单位 是 字 节 )。 其 值 为 0 表示 不 产生 
核心 转 储 文件 

进程 CPU 时 间 限 制 (单位 是 秒 ) 

进程 数据 段 〈 初 始 化 数据 data 段 、 未 初始 化 数据 bss 段 和 堆 〉 限 制 (单位 是 字 节 ) 

文件 大 小 限制 《单位 是 字 节 )， 超 过 该 限制 将 使 得 某 些 函数 〈 比 如 write) 产生 
EFBIG 错误 

文件 描述 符 数量 限制 ， 超 过 该 限制 将 使 得 某 些 函数 (比如 pipe) 产生 EMFILE 错误 

用 户 能 创建 的 进程 数 限制 ， 超 过 该 限制 将 使 得 某 些 函 数 〈 比 如 fork) 产生 EAGAIN 
错误 

用 户 能 够 挂 起 的 信号 数量 限制 

进程 栈 内 存 限制 (单位 是 字 节 )， 超 过 该 限制 将 引起 SIGSEGYV 信号 


setrlimit 和 getrlimit 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


7.5 改变 工作 目 永 和 根 目录 


有 些 服务 如 程序 还 需要 改变 工作 目录 和 根 目录 ， 比 如 我 们 第 4 章 讨 
论 的 Web 服 务 侨 。 一 般 来 说 ，Web 服 务 如 的 逻辑 根 日 好 并 非 文 件 系统 
的 根 目录 “/*”， 而 是 站 点 的 根 目录 (对 于 Linux 的 Web 服 务 来 说 ， 该 目录 


一 般 是 /Var/www/) 。 


获取 进程 当前 工作 目 孙 和 改变 进程 工作 目 孙 的 函数 分 别 是 : 


#include<unistd.h> 
char*getcwd(char*buf, size t size); 
int chdir(const char*path ) ; 


buf 参 数 指向 的 内 存 用 于 存储 进程 当前 工作 目录 的 绝对 路 径 名 ， 其 
大 小 由 size 参 数 指定 。 如 果 当 前 工作 目录 的 绝对 路 径 的 长 度 (再 加 上 
一 个 空 结束 字符 “\0”) 超过 了 size， 则 getcwd 将 返回 NULL， 并 设置 
errno 为 ERANGE。 如 果 buf 为 NULL 并 且 size 非 0， 则 getcwd 可 能 在 内 部 
使 用 malloc 动 态 分 配 内 存 ， 并 将 进程 的 当前 工作 目录 存储 在 其 中 。 如 
果 是 这 种 情况 ， 则 我 们 必须 自己 来 释放 getcwd 在 内 部 创建 的 这 块 内 
存 。getcwd 函 数 成 功 时 返回 一 个 指向 目标 存储 区 (buf 指 向 的 缓存 区 或 
是 getcwd 在 内 部 动态 创建 的 缓存 区 ) 的 指针 ， 失 败 则 返回 NULL 并 设 


置 errno 


chdir 函 数 的 path 人 参数 指定 要 切换 到 的 目标 目 了 永 。 它 成 功 时 返回 0， 
失败 时 返回 -1 并 设置 errno。 


改变 进程 根 目 孙 的 国 数 是 chroot， 其 定义 如 下 : 


#include<unistd.h> 
int chroot(const char*path); 


path 参 数 指定 要 切换 到 的 目标 根 目录 。 它 成 功 时 返回 09， 失败 时 返 
回 -1 并 设置 errno。chroot 并 不 改变 进程 的 当前 工作 目录 ， 所 以 调用 
chroot 之 后 ， 我 们 仍然 需要 使 用 chdir(“/”) 来 将 工作 目录 切换 至 新 的 根 目 
录 。 改 变 进 程 的 根 目录 之 后 ， 程 序 可 能 无 法 访问 类 似 /dev 的 文件 (和 
目录 ) ， 因 为 这 些 文件 (和 目录 ) 并 非 处 于 新 的 根 目录 之 下 。 不 过 好 
在 调用 chroot 之 后 ， 进 程 原先 打开 的 文件 描述 符 依然 生效 ， 所 以 我 们 
可 以 利用 这 些 盾 移 打 开 的 文件 描述 符 来 访问 调用 chroot 之 后 不 能 直接 
访问 的 文件 《和 目录 ) ， 尤 其 是 一 些 日 志文 件 。 此 外 ， 只 有 特权 进程 
才能 改变 根 目录 。 


7.6 ”服务 硕 程 序 后 合 化 


最 后 ， 我 们 讨论 如 何在 代码 中 让 一 个 进程 以 守护 进程 的 方式 运 
。 守护 进 程 的 编写 遵循 一 定 的 步 又 [站 ， 下 面 我 们 通过 一 个 具体 实现 
来 探讨 ， 如 代码 清单 7-3 所 示 。 


代码 清单 7-3 ”将 服务 器 程序 以 守护 进程 的 方式 运行 


bool daemonize() 


{ 

/* 创 建 子 进程 ， 关 闭 父 进程 ， 这 样 可 以 使 程序 在 后 台 运 行 */ 
pid_t pid=fork(); 

if(pid<0) 


return false; 
else if(pid>0) 


{ 
exit(0); 


} 

/* 设 置 文件 权限 掩 码 。 当 进程 创建 新 文件 (使 用 open(const char*pathname, int 
flags,mode_t mode ) 系 统 调 用 ) 时 ， 文 件 的 权限 将 是 mode 信 0777*/ 

umask(0); 

/* 创 建新 的 会 话 ， 设 置 本 进程 为 进程 组 的 首领 */ 

pid_t sid=setsid(); 

if(sid<0) 


return false; 


} 

/* 切 换 工 作 目 录 */ 
if((chdir("/"))<0) 
{ 


return false; 


} 

/* 关 闭 标 准 输入 设备 、 标 准 输出 设备 和 标准 错误 输出 设备 */ 
close(STDIN_FILENO); 

close(STDOUT_FILENO); 


close(STDERR_FILENO); 

/* 关 闭 其 他 已 经 打开 的 文件 描述 符 ， 代 码 省 略 */ 

/* 将 标准 输入 、 标 准 输出 和 标准 错误 输出 都 定向 到 /dev/nul1l 文 件 */ 
open("/dev/null",O_RDONLY); 
open("/dev/null",O_RDWR); 

open("/dev/null",O_RDWR); 

return true; 


. 


实际 上 ，Linux 提 供 了 完成 同样 功能 的 库 画 数 : 


#include<unistd.h> 
int daemon(int nochdir,int noclose); 


其 中 ，nochdir 参 数 用 于 指定 是 否 改变 工作 目录 ， 如 果 给 它 传递 
0， 则 工作 目录 将 被 设置 为 “%” ( 根 目录 ) ， 否 则 继续 使 用 当前 工作 目 
录 “。noclose 参 数 为 0 时 ， 标 准 输入 、 标 准 输出 和 标准 错误 输出 都 被 重 
定 癌 到 /devnull 文 件 ， 否 则 依然 使 用 原来 的 设备 。 该 函数 成 功 时 返回 
0， 失 败 则 返回 -1 并 设置 ermo 。 


这 一 章 是 全 书 的 核心 ， 也 是 后 续 章 的 总 虎 。 在 这 一 章 中 ， 我 们 
按照 服务 器 程序 的 一 般 原理 ， 将 服务 器 解构 为 如 下 三 个 主要 模块 : 


口 VO 处 理 单 元 。 本 章 将 介绍 MO 处 理 单 元 的 四 种 IO 模型 和 两 种 高 
效 事件 处 理 模 式 。 


口 逻 辑 单 元 。 本 章 将 介绍 逻辑 单元 的 两 种 高 效 并 发 模式 ， 以 及 高 
效 的 逻辑 处 理 方式 一 一 有 限 状 态 机 。 


口 存储 单元 。 本 书 不 讨论 存储 单元 ， 因 为 它 只 是 服务 器 程序 的 可 
选 模块 ， 而 且 其 内 容 与 网 络 编程 本 身 无 关 。 


最 后 ， 本 划 还 介绍 了 提高 服务 器 性 能 的 其 他 建议 。 


8.1.1 CGC/S 模 型 


TCP/IP 协 议 在 设计 和 实现 上 并 没有 客户 端 和 服务 器 的 概念 ， 在 通 
言 过 程 中 所 有 机 器 都 是 对 等 的 。 但 由 于 资源 (视频 、 新 闻 、 软 件 等 ) 
都 被 数据 提供 者 所 垄断 ， 所 以 几乎 所 有 的 网 络 应 用 程序 都 很 自然 地 采 


用 了 图 8-1 所 示 的 C/S 《客户 端 /服务 器 ) 模型 : 所 有 客户 端 都 通过 访问 
服务 器 来 获取 所 和 需 的 资源 。 


客户 站 


图 8-1 CGC/S 模 型 
采用 C/S 模 型 的 TCP 服 务 器 和 TCP 客 户 端 的 工作 流程 如 图 8-2 所 示 。 


C/S 模 型 的 逻辑 很 镜 单 。 服 务 器 局 动 后 ， 首 先 创建 一 个 (或 多 个 ) 
监听 socket， 并 调用 bind 函 数 将 其 绑 定 到 服务 器 感 兴趣 的 端口 上 ， 人 然后 
调用 listen 函 效 等 竺 客户 连 接 。 服 务 融 稳定 运行 之 后 ， 客 户 端 焉 可 以 调 


用 connect 函 数 向 服务 器 发 起 连接 了 “。 由 于 客户 连接 请 求 是 随机 到 达 的 
异步 事件 ， 服 务 器 需要 使 用 某 种 IO 模型 来 监听 这 一 事件 。IO 模 型 有 多 
种 ， 图 8-2 中 ， 服 务 器 使 用 的 是 LO 复 用 技术 之 一 的 select 系 统 调用 。 当 
监听 到 连接 请 求 后 ， 服 务 器 就 调用 accept 函 数 接受 它 ， 并 分 配 一 个 逻辑 
单元 为 新 的 连接 服务 。 逻 辑 单 元 可 以 是 新 创建 的 子 进程 、 子 线程 或 者 
其 他 。 图 8-2 中 ， 服 务 器 给 客户 端 分 配 的 逻辑 单元 是 由 fork 系 统 调 用 创 
建 的 子 进程 。 轩 辑 单元 读 取 客户 请 求 ， 处 理 该 请 求 ， 然 后 将 处 理 结 
返回 给 客户 端 。 客 户 端 接收 到 服务 器 反馈 的 结果 之 后 ， 可 以 继续 向 服 
务 器 发 送 请 求 ， 也 可 以 立即 主动 关闭 连接 。 如 果 客 户 端 主动 关闭 连 
接 ， 则 服务 器 执行 被 动 关闭 连接 。 至 此 ， 双 方 的 通信 结束 。 需 要 注意 
的 是 ， 服 务 器 在 处 理 一 个 客户 请 求 的 同时 还 会 继续 监听 其 他 客户 请 
求 ， 否 则 就 变 成 了 效率 低下 的 捉 行 服务 器 了 (必须 先 处 理 完 前 一 个 客 
户 的 请 求 ， 才 能 继续 处 理 下 一 个 客户 请 求 ) 。 图 8-2 中 ， 服 务 器 同时 监 
听 多 个 客户 请 求 是 通过 select 系 统 调 用 实现 的 。 
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图 。8-2 TCP 服 务 器 和 TCP 客 户 端 的 工作 流程 


C/S 模 型 非常 适合 资源 相对 集中 的 场合 ， 并 且 它 的 实现 也 很 位 单 ， 
但 其 正点 也 很 明显 :服务 器 是 通信 的 中 心 ， 当 访问 量 过 大 时 ， 可 能 所 
有 客户 都 将 得 到 很 慢 的 响应 。 下 面 讨论 的 P2P 模 型 解决 了 这 个 问题 。 


8.1.2”P2P 模 型 


P2P (Peer to Peer， 点 对 点 ) 模型 比 C/S 模 型 更 符合 网 络 通信 的 实 
际 情 况 。 它 握 弃 了 以 服务 器 为 中 心 的 格局 ， 让 网 络 上 所 有 主机 重新 加 
归 对 等 的 地 位 。P2P 模 型 如 图 8-3a 所 示 。 


P2P 模 型 使 得 每 台 机 右 在 消耗 服务 的 同时 也 给 别人 提供 服务 ， 这 样 
源 能 够 充分 、 自 由 地 共享 。 云 计算 机 群 可 以 看 作 P2P 模 型 的 一 个 典 
范 。 但 P2P 模 型 的 缺点 也 很 明显 : 当 用 户 之 间 传 输 的 请 求 过 多 时 ， 网 络 
的 负载 将 加 重 。 


| 


图 8-3a 所 示 的 P2P 模 型 存在 一 个 显著 的 问题 ， 即 主机 之 间 很 难 互相 
发 现 。 所 以 实际 使 用 的 P2P 模 型 通常 市 有 一 个 专 | 的 发 现 服务 厦 ， 如 图 
8-3b 所 示 。 这 个 发 现 服务 器 通常 还 提供 查找 服务 (甚至 还 可 以 提供 内 容 
服务 ) ， 使 每 个 客户 都 能 尽快 地 找到 上 自己 需要 的 资源 。 


Ye 


a) 


图 8-3 两 种 P2P 模 型 
a) P2P 模 型 b) 带 有 发 现 服务 器 的 P2P 模 型 


从 编程 角度 来 讲 ，P2P 模 型 可 以 看 作 C/S 模 型 的 扩展 每 台 主 机 既 
苹 客 户 问 ， 又 是 服务 右 。 因 此 ， 我 们 仍然 采用 C/S 模 型 来 讨论 网 络 编 
程 。 


8.2 ”服务 如 编程 框架 


虽然 服务 器 程序 种 类 繁多 ,但 其 基本 框架 都 一 样 ， 不 同 之 处 在 于 
逻辑 处 理 。 为 了 让 读者 能 从 设计 的 角度 把 握 服 务 絮 编程 ， 本 章 先 讨论 
基本 框架 ， 如 图 8-4 所 示 。 


网 络 存 储 单元 


IO 处 理 单元 (可 选 ) 


请 求 队列 
请 求 队列 


该 图 既 能 用 来 搬 述 一 台 服 务 咒 ， 也 能 用 来 插 述 一 个 服务 右 机 群 。 
两 种 情况 下 各 个 部 件 的 含义 和 功能 如 表 8-1 所 示 。 


表 8-1 服务 器 基本 模块 的 功能 描述 


单个 服务 器 程序 服务 器 机 群 


IO 处 理 单元 处 理 客户 连接 ， 读 写 网 络 数据 作为 接 入 服务 器 ， 实 现 负 载 均衡 


逻辑 单元 业务 进程 或 线程 逻辑 服务 天 


模 块 单个 服务 器 程序 服务 器 机 群 
网 络 存储 单元 本 地 数据 库 、 文 件 或 缓存 数据 库 服务 需 


请 求 队列 各 单元 之 间 的 通信 方式 各 服务 器 之 间 的 永久 TCP 连接 


IO 处 理 单元 征服 务 右 管理 客户 连接 的 模块 。 写 通 芝 要 完成 以 下 工 
作 : 等 等 并 接受 新 的 客户 连接 ， 接 收 客户 数据 ， 将 服务 器 响应 数据 返 
回 给 客户 问 。 但 是 ， 数 据 的 收发 不 一 定 在 IO 处 理 单 元 中 执行 ， 也 可 能 
在 逻辑 单元 中 执行 ， 具 体 在 何 处 执行 取决 于 事件 处 理 模 式 〈 见 后 
文 ) 。 对 于 一 个 服务 器 机 群 来 说 ，L/O 处 理 单元 是 一 个 专门 的 接 入 服务 
大。 它 实现 负载 均衡 ， 从 所 有 逻辑 服务 事 中 选取 人 负 三 最 小 的 一 台 来 为 
新 客户 服务 。 


一 个 逻辑 单元 通 首 是 一 个 进程 或 线程 。 它 分 析 并 处 理 客户 数据 ， 
然后 将 结果 传递 给 WO 处 理 单元 或 者 直接 发 送 给 客户 问 (具体 使 用 哪 种 
方式 取决 于 事件 处 理 模式 ) 。 对 服务 器 机 群 而 言 ， 一 个 逻辑 单元 本 身 
忠 古 一 台 人 逻辑 服务 器 。 服 务 右 通 弟 拥有 多 个 逻辑 时 元 ， 以 实现 对 多 个 


客户 任务 的 并 行 处 理 。 


网 络 存储 单元 可 以 是 数据 库 、 缓 存 和 文件 ， 甚 至 是 一 台独 立 的 服 


务 器 。 但 它 不 是 必须 的 ， 比 如 ssh 、telnet 等 登录 服务 就 不 需要 这 个 单 


对 | 


请 求 队列 是 各 单元 之 间 的 通信 方式 的 抽象 。IO 处 理 单元 接收 到 客 
户 请 求 时 ， 需 要 以 某 种 方式 通知 一 个 逻辑 单元 来 处 理 该 请 求 。 同 样 ， 


多 个 逻辑 单元 同时 访问 一 个 存储 单元 时 ， 也 需要 采用 某 种 机 制 来 协调 
处 理 竞 态 条 件 。 请 求 队列 通常 被 实现 为 池 的 一 部 分 ， 我 们 将 在 后 面 讨 
论 池 的 概念 。 对 于 服务 器 机 群 而 言 ， 请 求 队列 是 各 人 台 服 务 器 之 间 预 爷 
建立 的 、 静 态 的 、 永 久 的 TCP 连 接 。 这 种 TCP 连 接 能 提高 服务 器 之 间 区 
换 数据 的 效率 ， 因 为 它 避 免 了 动态 建立 TCP 连 接 导 致 的 额外 的 系统 

销 。 


8.3 IO 模型 


第 5 章 讲 到 ，socket 在 创建 的 时 候 默 认 是 阻塞 的 。 我 们 可 以 给 socket 
系统 调用 的 第 2 个 参数 传递 SOCK_NONBLOCK 标 志 ， 或 者 通过 fcntl 系 
统 调用 的 F_SETFL 命 令 ， 将 其 设置 为 非 阻塞 的 。 阻 塞 和 非 阻塞 的 概念 
能 应 用 于 所 有 文件 描述 符 ， 而 不 仅仅 是 socket。 我 们 称 阻塞 的 文件 描述 
符 为 阻塞 O， 称 非 阻塞 的 文件 描述 符 为 非 阻 塞 O。 


针对 阻塞 VO 执 行 的 系统 调用 可 能 因为 无 法 立即 完成 而 被 操作 系统 
挂 起 ， 直 到 等 竺 的 事件 发 生 为 止 。 比 如 ， 窜 户 端 通过 connect 回 服务 器 
发 起 连接 时 ，connect 将 首先 发 送 同步 报 文 段 给 服务 器 ， 然 后 等 待 服务 
回 返 回 确认 报 文 段 。 如 果 服 务 器 的 确认 报 文 段 没 有 立即 到 达 客 户 端 ， 
则 connect 调 用 将 被 挂 起 ， 直 到 客户 病 收 到 确认 报 文 段 并 唤醒 connect 调 
用 。socket 的 基础 API 中 ， 可 能 被 阻塞 的 系统 调用 包括 accept、send、 


recv 和 connect ° 


针对 非 阻塞 IO 执行 的 系统 调用 则 总 是 立即 返回 ， 而 不 管事 件 是 否 
已 经 发 生 。 如 果 事 件 没有 立即 发 生 ， 这 些 系统 调用 就 返回 -1， 和 出 错 的 
情况 一 样 。 此 时 我 们 必须 根据 errno 来 区 分 这 两 种 情况 。 对 accept、send 
和 recv 而 言 ， 事 件 未 发 生 时 ermo 通 常 被 设置 成 EAGAIN 〈 意 为 “再 来 一 
次 ”) 或 者 EWOULDBLOCK 〈 意 为 “期望 阻 塞 ") ; 对 connect 而 言 ， 
errno 则 被 设置 成 EINPROGRESS ( 意 为 “在 处 理 中 ”) 。 


很 显然 ， 我 们 只 有 在 事件 已 经 发 生 的 情况 下 操作 非 阻塞 UVO ( 读 、 
写 等 ) ， 才 能 提高 程序 的 效率 。 因 此 ， 非 阻塞 IO 通常 要 和 其 他 IO 通知 
机 制 一 起 使 用 ， 比 如 IO 复 用 和 SIGIO 信 和 号。 


LO 复 用 是 最 常 使 用 的 VO 通知 机 制 。 它 指 的 是 ， 应 用 程序 通过 VO 
复 用 函数 向 内 核 注册 一 组 事件 ， 内 核 通过 VO 复 用 函数 把 其 中 就 绪 的 事 
件 通知 给 应 用 程序 。Linux 上 常用 的 MO 复 用 函数 是 select、pol 和 
epoll_wait， 我 们 将 在 第 9 章 详细 讨论 它们 。 需 要 指出 的 是 ，IO 复 用 画 
数 本 身 是 阻塞 的 ， 它 们 能 提高 程序 效率 的 原因 在 于 它们 具有 同时 监听 
多 个 IO 事件 的 能 


SIGIO 信 号 也 可 以 用 来 报告 IO 事件 。6.8 世 的 最 后 一 段 所 到 ， 我 们 
可 以 为 一 个 目标 文件 描述 符 指定 得 主 进程 ， 那 么 被 指定 的 往 主 进程 将 
捕获 到 SIGIO 信 和 号。 这样 ， 当 目标 文件 摘 述 符 上 有 事件 发 生 时 ，SIGIO 
言 写 的 信号 处 理 画 数 将 被 触发 ， 我 们 也 整 可 以 在 该 信号 处 理 函 数 中 对 
目标 文件 描述 符 执 行 非 阻塞 W/O 操作 了 。 关 于 信号 的 使 用 ， 我 们 将 在 第 


10 章 讨论 。 


从 理论 上 说 ， 阻 塞 O、LIO 复 用 和 信和 号 张 动 TO 都 是 同步 JO 模 型 。 
因为 在 这 三 种 IO 模型 中 ，IO 的 读 写 操作 ， 都 是 在 IO 事件 发 生 之 后 ， 
由 应 用 程序 来 完成 的 。 而 POSIX 规 范 所 定义 的 异步 JO 模 型 则 不 同 。 对 
异步 WO 而 言 ， 用 户 可 以 直接 对 WO 执行 读 写 操作 ， 这 些 操作 告诉 内 核 用 
户 读 写 缓冲 区 的 位 置 ， 以 及 LO 操作 完成 之 后 内 核 通 知 应 用 程序 的 方 


异步 IO 的 读 写 操作 总 是 立即 返回 ， 而 不 论 MO 是 否 是 阻塞 的 ， 因 为 
真正 的 读 写 操作 已 经 由 内 核 接管 。 也 就 是 说 ， 同 步 JO 模 型 要 求 用 户 代 
码 自 行 执行 VO 操作 (将 数据 从 内 核 缓冲 区 读 入 用 户 缓 冲 区 ， 或 将 数据 
从 用 户 缓冲 区 写 入 内 核 缓冲 区 ) ， 而 异步 WO 机 制 则 由 内 核 来 执行 VO 操 
作 (数据 在 内 核 缓冲 区 和 用 户 缓 促 区 之 间 的 移动 是 由 内 核 在 “后 台 ” 完 
成 的 ) 。 你 可 以 这 样 认 为 ， 同 步 JO 向 应 用 程序 通知 的 是 IO 就 绪 事 件 ， 
而 异步 IO 向 应 用 程序 通知 的 是 IO 完成 事件 。Linux 环 境 下 ，aio.h 头 文 
件 中 定义 的 画 数 提供 了 对 异步 /O 的 支持 。 不 过 这 部 分 内 容 不 是 本 书 的 
重点 ， 所 以 只 做 简单 的 讨论 。 


作为 总 结 ， 我 们 将 上 面 讨论 的 几 种 MO 模型 的 差异 列 于 表 8-2 中 。 


表 8-2 ”1/O 模型 对 比 


IO 模型 读 写 操作 和 阻塞 阶段 
阻塞 IO 程序 阻塞 于 读 写 函 数 
IO 复 用 程序 阻塞 于 IO 复 用 系统 调用 ， 但 可 同时 监听 多 个 VO 事件 。 对 IO 本 身 的 读 写 操作 是 非 阻 寨 的 


SIGIO 信号 信和 号 触发 读 写 就 绪 事件 ， 用 户 程 序 执行 读 写 操作 。 程 序 没有 阻塞 阶段 
异步 IO 内 核 执行 读 写 操作 并 触发 读 写 完 成 事件 。 程 序 没有 阻塞 阶段 


8.4 两 种 高 效 的 事件 处 理 模式 


服务 器 程序 通常 需要 处 理 三 类 事件 : IO 事件 、 信 和 号 及 定时 事件 。 
我 们 将 在 后 续 章 节 依 次 讨论 这 三 种 类 型 的 事件 ， 这 一 和 先 从 整体 上 介 
绍 一 下 两 种 高 效 的 事件 处 理 模 式 : Reactor 和 Proactor 。 


随 着 网 络 设计 模式 的 兴起 ，Reactor 和 Proactor 事 件 处 理 模式 应 运 而 
生 。 同 步 /O 模 型 通常 用 于 实现 Reactor 模 式 ， 异 步 /O 模 型 则 用 于 实现 
Proactor 模 式 。 不 过 后 面 我 们 将 看 到 ， 如 何 使 用 同步 WO 方式 模拟 出 
Proactor 模 式 。 


8.4.1 Reactor 模式 


Reactor 是 这 样 一 种 模式 ， 它 要 求 主线 程 (I/O 处 理 单元 ， 下 同 ) 只 
负责 监听 文件 描述 上 是 否 有 事件 发 生 ， 有 的 话 就 立即 将 该 事件 通知 工 
作 线 程 (人 逻辑 单元 ， 下 同 ) 。 除 此 之 外 ， 主 线程 不 做 任何 其 他 实质 性 
的 工作 。 读 写 数 据 ， 接 受 新 的 连接 ， 以 及 处 理 客户 请 求 均 在 工作 线程 
oe 


使 用 同步 WO 模型 (以 epoll_wait 为 例 ) 实现 的 Reactor 模 式 的 工作 流 
程 是 : 


1) 主线 程 往 epoll 内 核 事 件 表 中 注册 socket 上 的 读 就 绪 事 件 。 
2) 主线 程 调 用 epollL_wait 等 待 socket 上 有 数据 可 读 。 


3) 当 socket 上 有 数据 可 读 时 ，epoll_wait 通 知 主线 程 。 主 线程 则 将 
socket 可 读 事 件 放 入 请 求 队列 。 


4) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 从 socket 读 取 效 
据 ， 并 处 理 客户 请 求 ， 然 后 往 epoll 内 核 事 件 表 中 注册 该 socket 上 的 写 束 
绪 事 件 。 


5) 主线 程 调用 epollL_wait 等 待 socket 可 写 。 


6) 当 socket 可 写 时 ，epoll_wait 通 知 主线 程 。 主 线程 将 socket 可 写 事 
件 放 入 请 求 队 列 。 


7) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 往 socket 上 写 入 
服务 絮 处 理 客户 请 求 的 结 


图 8-5 总 结 了 Reactor 模 式 的 工作 流程 。 


注册 写 就 绪 事 件 


注册 读 就 绪 事 件 


Read，Process 或 Write | 工作 线程 


A 
ee 


注册 写 就 绪 事 件 


循环 等 待 监听 /连接 


socket 上 的 事件 工作 线程 


儿 8-5 ” Reactor 模式 


图 8-5 中 ， 工 作 线 程 从 请 求 队列 中 取出 事件 后 ， 将 根据 事件 的 类 型 
来 决定 如 何 处 理 它 : 对 于 可 读 事件 ， 执 行 读数 据 和 处 理 请 求 的 操作 |; 
对 于 可 写 事 件 ， 执 行 写 数据 的 操作 。 因 此 ， 图 8-5 所 示 的 Reactor 模 式 
中 ， 没 必要 区 分 所 谓 的 “ 读 工 作 线 程 " 和 “ 写 工作 线程 ”。 


8.4.2 ”Proactor 模 式 


与 Reactor 模 式 不 同 ，Proactor 模 式 将 所 有 LO 操作 都 交 给 主线 程 和 内 
核 来 处 理 ， 工 作 线 程 仅仅 负责 业务 逻辑 。 因 此 ，Proactor 模 式 更 符合 图 
8-4 所 摘 述 的 服务 器 编程 框架 。 


使 用 异步 VO 模型 (以 aio_read 和 aio_write 为 例 ) 实现 的 Proactor 模 
式 的 工作 交 程 是 : 


1) 主线 程 调用 aio_read 函 数 向 内 核 注 册 socket 上 的 读 完成 事件 ， 并 
告诉 内 核 用 户 读 缓冲 区 的 位 置 ， 以 及 读 操 作 完 成 时 如 何 通知 应 用 程序 
(这 里 以 信号 为 例 ， 详 情 请 参考 sigevent 的 man 手 册 ) 。 


2) 主线 程 继续 处 理 其 他 逻辑 。 


3) 当 socket 上 的 数据 被 读 入 用 户 绥 冲 区 后 ， 内 核 将 向 应 用 程序 发 
送 一 个 信号 ， 以 通知 应 用 程序 数据 已 经 可 用 。 


4) 应 用 程序 预先 定义 好 的 信号 处 理 函 数 选 择 一 个 工作 线程 来 处 理 
客户 请 求 。 工 作 线 程 处 理 完 客户 请 求 之 后 ， 调 用 aio_write 函 数 癌 内 核 注 
册 socket 上 的 写 完 成 事件 ， 并 告诉 内 核 用 户 写 缓冲 区 的 位 置 ， 以 及 写 操 
作 完 成 时 如 何 通知 应 用 程序 (仍然 以 信号 为 例 ) 。 


5) 主线 程 继续 处 理 其 他 逻辑 。 


6) 当 用 户 缓 种 区 的 数据 被 写 入 socket 之 后 ， 内 核 将 向 应 用 程序 发 
送 一 个 信号 ， 以 通知 应 用 程序 数据 已 经 发 送 完毕 。 


7) 应 用 程序 预先 定义 好 的 信号 处 理 函 数 选 择 一 个 工作 线程 来 做 善 
后 处 理 ， 比 如 决定 是 否 关 闭 socket 。 


图 8-6 总 结 了 Proactor 模 式 的 工作 流程 。 
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图 8-6 Proactor 模 式 


在 图 8-6 中 ， 连 接 socket 上 的 读 写 事件 是 通过 aio_read/aio_write 同 内 
核 注册 的 ， 因 此 内 核 将 通过 信和 号 来 向 应 用 程序 报告 连接 socket 上 的 读 写 


事件 。 所 以 ， 主 线程 中 的 epoll_wait 调 用 仅 能 用 来 检测 监听 socket 上 的 连 
接 请 求 事件 ， 而 不 能 用 来 检测 连接 socket 上 的 读 写 事 件 。 


8.4.3 ”模拟 Proactor 模 式 


参考 文献 [3] 提 到 了 使 用 同步 WO 方式 模拟 出 Proactor 模 式 的 一 种 方 
法 。 其 原理 是 ， 主线 程 执行 数据 读 写 操作 ， 读 写 完成 之 后 ， 主 线程 问 
工作 线程 通知 这 一 “完成 事件 *”。 那么 从 工作 线程 的 角度 来 看 ， 它 们 束 
直接 获得 了 数据 读 写 的 结 末 ， 接 下 来 要 做 的 只 是 对 读 写 的 结果 进行 逻 
辑 处 理 。 


使 用 同步 WO 模型 (仍然 以 epoll_wait 为 例 ) 模拟 出 的 Proactor 模 式 
的 工作 流程 如 下 : 


1) 主线 程 往 epoll 内 核 事 件 表 中 注册 socket 上 的 读 就 绪 事 件 。 
2) 主线 程 调 用 epoll_wait 等 待 socket 上 有 数据 可 读 。 


3) 当 socket 上 有 数据 可 读 时 ，epolL_wait 通 知 主线 程 。 主 线程 从 
socket 循 环 读 取 数据 ， 直 到 没有 更 多 数据 可 读 ， 然 后 将 读 取 到 的 数据 封 
效 成 一 个 请 求 对 象 并 插入 请 求 队列 。 


4) 睡眠 在 请 求 队列 上 的 某 个 工作 线程 被 唤醒 ， 它 获得 请 求 对 象 并 
处 理 客 户 请 求 ， 然 后 往 epoll 内 核 事 件 表 中 注册 socket 上 的 写 束 绪 事件 。 


5) 主线 程 调 用 epollL_wait 等 待 socket 可 写 。 


6) 当 socket 可 写 时 ，epoll_wait 通 知 主线 程 。 主 线程 往 socket 上 写 入 
服务 器 处 理 客户 请 求 的 结果 。 


图 8-7 总 结 了 用 同步 WO 模型 模拟 出 的 Proactor 模 式 的 工作 流程 。 
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图 8-7 用 同步 W/O 模拟 出 的 Proactor 模 式 


8.5 ”两 种 高 效 的 并 发 模式 


并 发 编程 的 目的 是 让 程序 “同时 ”执行 多 个 任务 。 如 果 程 序 是 计算 
密集 型 的 ， 并 发 编程 并 没有 优势 ， 反 而 由 于 任务 的 切换 使 效率 降低 。 
但 如 果 程 序 是 VO 密集 型 的 ， 比 如 经 常 读 写 文件 ， 访 问 数据 库 等 ， 则 情 
况 就 不 同 了 。 由 于 IO 操作 的 速度 远 没 有 CPU 的 计算 速度 快 ， 所 以 让 程 
序 阻塞 于 IO 操作 将 浪费 大 量 的 CPU 时 间 。 如 果 程 序 有 多 个 执行 线程 ， 
则 当前 被 WO 操作 所 阻塞 的 执行 线程 可 主动 放弃 CPU (或 由 操作 系统 3 
调度 ) ， 并 将 执行 权 转 移 到 其 他 线程 。 这 样 一 来 ，CPU 就 可 以 用 来 做 
更 加 有 意义 的 事情 (除非 所 有 线程 都 同时 被 1/O 操 作 所 阻塞 ) ， 而 不 是 
等 待 /O 操 作 完 成 ， 因 此 CPU 的 利用 率 显著 提升 。 


从 实现 上 来 说 ， 并 发 编程 主要 有 多 进程 和 多 线程 两 种 方式 ， 我 们 
将 在 后 续 章 廊 详细 讨论 它们 ， 这 一 市 先 讨论 并 发 模式 。 对 应 于 图 8-4， 
并 发 模式 是 指 WO 处 理 单 元 和 多 个 逻辑 单元 之 间 协 调 完成 任务 的 方法 。 
服务 器 主要 有 两 种 并 发 编程 模式 ， 半 同步 / 半 异 步 (half-sync/half- 
async) 模式 和 领导 者 /追随 者 (Leader/Followers) 模式 。 我 们 将 依次 讨 


论 之 * 


8.5.1 ” 半 同 步 / 半 异 步 模 式 


目 完 ， 半 同步 / 半 异 步 模式 中 的 “同步 ?和 “异步 "与 前 面 讨论 的 1/O 模 
型 中 的 “同步 和 “异步 ”是 完全 不 同 的 概念 。 在 WO 模型 中 ,， “同步 "和 “ 异 
步 ? 区 分 的 是 内 核 向 应 用 程序 通知 的 是 何 种 IO 事件 (是 束 绪 事件 还 是 完 
成 事件 ) ， 以 及 该 由 谁 来 完成 WO 读 写 (是 应 用 程序 还 是 内 核 ) 。 在 并 
发 模式 中 ,“ 同 步 ” 指 的 是 程序 完全 按照 代码 序列 的 顺序 执行 ;“ 异 步 ” 指 
的 是 程序 的 执行 需要 由 系统 事件 来 驱动 。 和 常见 的 系统 事件 包括 中 断 、 
信和 号 等 。 比 如 ， 图 8-8a 揪 述 了 同步 的 读 操 作 ， 而 图 8-8b 则 插 述 了 异步 的 
读 操 作 。 
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图 8-8 并 发 模式 中 的 同步 和 异步 


a) 同步 读 b) 异步 读 


按照 同步 方式 运行 的 线程 称 为 同步 线程 ， 按 照 异步 方式 运行 的 线 
程 称 为 异步 线程 。 显 然 ， 异 步 线程 的 执行 效率 高 ， 实 时 性 强 ， 这 是 很 
多 舱 入 式 程序 采用 的 模型 。 但 编写 以 异步 方式 执行 的 程序 相对 复杂 ， 
难于 调试 和 扩展 ， 而 且 不 适合 于 大 量 的 并 发 。 而 同步 线程 则 相反 ， 它 
虽然 效率 相对 较 低 ， 实 时 性 较 差 .但 逻辑 简单 。 因 此 ， 对 于 像 服务 器 
这 种 既 要 求 较 好 的 实时 性 ， 又 要 求 能 同时 处 理 多 个 客户 请 求 的 应 用 程 
序 ， 我 们 就 应 该 同时 使 用 同步 线程 和 异步 线程 来 实现 ， 即 采用 半 同 步 / 
半 异 步 模式 来 实现 。 


半 同 步 / 半 异步 模式 中 ， 同 步 线程 用 于 人 处理 客户 逻辑 ， 相 当 于 图 8-4 
中 的 逻辑 单元 ， 异 步 线 程 用 于 处 理 1/O 事 件 ， 相 当 于 图 8-4 中 的 WO 处 理 
单元 。 异 步 线程 监听 到 客户 请 求 后 ， 就 将 其 封闭 成 请 求 对 象 并 插入 请 
求 队列 中 。 请 求 队列 将 通知 某 个 工作 在 同步 模式 的 工作 线程 来 恋 取 并 
处 理 该 请 求 对 象 。 具 体 选 择 哪个 工作 线程 来 为 新 的 客户 请 求 服 务 ， 则 
取决 于 请 求 队列 的 设计 。 比 如 最 简单 的 轮流 选取 工作 线程 的 Round 
Robin 算 法 ， 也 可 以 通过 条 件 变量 ( 见 第 14 章 ) 或 信号 量 ( 见 第 14 章 ) 
来 随机 地 选择 一 个 工作 线程 。 图 8-9 总 结 了 半 同 步 / 半 异 步 模式 的 工作 流 
程 。 
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图 8-9 半 同 步 / 半 异 步 模 式 的 工作 流程 


在 服务 器 程序 中 ， 如 有 果 结 合 考虑 两 种 事件 处 理 模式 和 几 种 WO 模 
型 ， 则 半 同 步 / 半 异步 模式 就 存在 多 种 变 体 。 其 中 有 一 种 变 体 称 为 半 同 
步 / 半 反应 堆 (half-sync/half-reactive) 模式 ， 如 图 8-10 所 示 。 
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图 8-10 半 同 步 / 半 反 应 扒 模 式 


图 8-10 中 ， 异 步 线 程 只 有 一 个 ， 由 主线 程 来 充当 。 它 负责 监听 所 有 
socket 上 的 事件 。 如 果 监 听 socket 上 有 可 读 事 件 发 生 ， 即 有 新 的 连接 请 
求 到 来 ， 主 线程 殉 搂 受 之 以 得 到 新 的 连接 socket， 然 后 往 epoll 内 核 事 件 
表 中 注册 该 socket 上 的 读 写 事件 。 如 条 连 接 socket 上 有 读 写 事件 发 生 ， 
印 有 新 的 客户 请 求 到 来 或 有 效 据 有 要 发 送 至 客户 端 ， 主 线程 束 将 该 连接 
socket 插 入 请 求 队列 中 。 所 有 工作 线程 都 睡眠 在 请 求 队 列 上 ， 当 有 任务 
到 来 时 ， 它 们 将 通过 竞争 〈 比 如 申请 互 斥 锁 ) 获得 任务 的 接管 权 。 这 
种 竞争 机 制 使 得 只 有 空 几 的 工作 线程 才 有 机 会 来 处 理 新 任务 ， 这 古 很 
合理 的 。 


图 8-10 中 ， 主 线程 插入 请 求 队列 中 的 任务 古 束 绪 的 连接 socket。 这 
说 明 该 图 所 示 的 半 同 步 / 半 反 应 堆 模 式 采 用 的 事件 处 理 模 式 是 Reactor 酝 
式 : 它 要 求 工作 线程 自己 从 socket 上 读 取 客 户 请 求 和 往 socket 写 入 服务 
器 应 答 。 这 就 是 该 模式 的 名 称 中 “half-reactive” 的 含义 。 实 际 上 ， 半 同 
步 / 半 反 应 堆 模 式 也 可 以 使 用 模拟 的 Proactor 事 件 处 理 模 式 ， 即 由 主线 程 
来 完成 数据 的 读 写 。 在 这 种 情况 下 ， 主 线程 一 般 会 将 应 用 程序 数据 、 
任务 类 型 等 信息 封装 为 一 个 任务 对 象 ， 然 后 将 其 (或 者 指向 该 任务 对 
象 的 一 个 指针 ) 插入 请 求 队列 。 工 作 线程 从 请 求 队列 中 取得 任务 对 象 
之 后 ， 即 可 直接 处 理 之 ， 而 无 须 执行 读 写 操作 了 。 我 们 将 在 第 15 章 给 
出 一 个 用 半 同 步 / 半 反 应 扒 模 式 实现 的 简单 Web 服 务 夯 的 代码 。 


半 同 步 / 半 反 应 堆 模 式 存在 如 下 缺点 ， 


口 主线 程 和 工作 线程 共享 请 求 队 列 。 主 线程 往 请 求 队列 中 添加 任 
， 或 者 工作 线程 从 请 求 队列 中 取出 任务 ， 都 需要 对 请 求 队 列 加 锁 保 
护 ， 从 而 白 日 耗 缆 CPU 时 间 。 


以 


口 每 个 工作 线程 在 同一 时 间 只 能 处 理 一 个 客户 请 求 。 如 采 客 户 数 
量 较 多 ， 而 工作 线程 较 少 ， 则 请 求 队列 中 将 堆积 很 多 任务 对 象 ， 客 户 
端的 响应 速度 将 越 来 越 慢 。 如 采 通 过 增加 工作 线程 来 解决 这 一 问题 ， 
则 工作 线程 的 切换 也 将 耗费 大 量 CPU 时 间 。 


图 8-11 描 述 了 一 种 相对 高 效 的 半 同 步 / 半 腊 步 模式 ， 它 的 每 个 工作 
线程 都 能 同时 处 理 多 个 客户 连接 。 
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图 8-11 高 效 的 半 同 步 / 半 异 步 模式 


图 8-11 中 ， 主 线程 只 管理 监听 socket， 连 接 socket 由 工作 线程 来 管 
理 。 当 有 者 的 连接 到 来 时 ， 主 线程 就 接受 之 并 将 痢 返 回 的 连接 socket 派 
发 给 某 个 工作 线程 ， 此 后 该 新 socket 上 的 任何 IO 操作 都 由 被 选中 的 工 
作 线 程 来 处 理 ， 直 到 客户 关闭 连接 。 主 线程 同 工 作 线程 派发 socket 的 最 


简单 的 方式 ， 是 往 它 和 工作 线程 之 间 的 管道 里 写 数据 。 工 作 线 程 检 测 
到 管道 上 有 数据 可 读 时 ， 就 分 析 是 否 是 一 个 新 的 客户 连接 请 求 到 来 。 
如 果 是 ， 则 把 该 新 socket 上 的 读 写 事件 注册 到 自己 的 epoll 内 核 事 件 表 
中 o 


可 见 ， 图 8-11 中 ， 每 个 线程 〈 主 线程 和 工作 线程 ) 都 维持 自己 的 事 
件 循 环 ， 它 们 各 目 独 立地 监听 不 同 的 事件 。 因 此 ， 在 这 种 高 效 的 半 同 
步 / 半 异步 模式 中 ， 每 个 线程 都 工作 在 异步 模式 ， 所 以 它 并 非 严 格 意义 
上 的 半 同 步 / 半 异 步 模 式 。 我 们 将 在 第 15 革 给 出 一 个 用 这 种 高 效 的 半 同 
步 / 半 异 步 模式 实现 的 简单 CGI 服 务 右 的 代码 。 


8.5.2 ”领导 者 /追随 者 模式 


领导 者 /追随 者 模式 是 多 个 工作 线程 轮流 获得 事件 源 集合 ， 轮 流 监 
听 、 分 发 并 处 理事 件 的 一 种 模式 。 在 任意 时 间 点 ， 程 序 都 仅 有 一 个 领 
导 者 线程 ， 它 负责 监听 MO 事件 。 而 其 他 线程 则 都 是 奶 随 者 ， 它 们 休 眼 
在 线程 池 中 等 待 成 为 新 的 领导 者 。 当 前 的 领导 者 如 果 检 测 到 IO 事件 ， 
首先 要 从 线程 池 中 推选 出 新 的 领导 者 线程 ， 然 后 处 理 VO 事 件 。 此 时 ， 
新 的 领导 者 等 待 新 的 MO 事 件 ， 而 原来 的 领导 者 则 处 理 MO 事 件 ， 二 者 实 
现 了 并 发 。 


领导 者 /追随 者 模式 包含 如 下 几 个 组 件 ， 句柄 集 (HandleSet) 、 线 
程 集 (ThreadSet) 、 事 件 处 理 器 (EventHandler) 和 具体 的 事件 处 理 器 


(ConcreteEventHandler) 。 它 们 的 关系 如 图 8-12 所 示 内 。 


HandleSet 


+ wait for event(): void 
[| + register handle(): void 
| + unregister handle(): void 
1 


<<uses>> 


EventHandler 
+ get_ handle(): Handle 
+ handle event():void 


人 


ThreadSet 


Synchronizer: int 


+ join(): void 
+ handle event():void + promote new_ leader(): void 


图 8-12 领导 者 /追随 者 模式 的 组 件 


1 
1 
ConcreteEventHandler 


1. 句 柄 集 


句柄 (Handle) 用 于 表示 IO 资源 ， 在 Linux 下 通常 就 是 一 个 文件 描 
述 符 。 句 柄 集 管 理 众多 句柄 ， 它 使 用 wait_for_event 方 法 来 监听 这 些 名 
柄 上 的 MO 事件 ， 并 将 其 中 的 就 绪 事 件 通 知 给 领导 者 线程 。 领 导 者 则 调 
用 绑 定 到 Handle 上 的 事件 处 理 器 来 处 理事 件 。 领 导 者 将 Handle 和 事件 处 
理 器 绑 定 是 通过 调用 句柄 集中 的 register_handle 方 法 实现 的 。 


2. 线 程 集 


这 个 组 件 是 所 有 工作 线程 〈 包 括 领 导 者 线程 和 奶 随 者 线程 ) 的 管 
理 者 。 它 负责 各 线程 之 间 的 同步 ， 以 及 新 领导 者 线程 的 推选 。 线 程 集 
中 的 线程 在 任 一 时 间 必 处 于 如 下 三 种 状态 之 一 : 


口 Leader: 线程 当前 处 于 领导 着 身份 ， 负 责 等 竺 句柄 集 上 的 IO 事 
人 


口 Processing: 线程 正在 处 理事 件 。 领 导 者 检测 到 IO 事件 之 后 ， 可 
以 转移 到 Processing 状 态 来 处 理 该 事件 ， 并 调用 promote_new_leader 方 法 
推选 新 的 领导 者 ， 也 可 以 指定 其 他 追随 者 来 处 理事 件 (Event 
Handoff) ， 此 时 领导 者 的 地 位 不 变 。 当 处 于 Processing 状 态 的 线程 处 理 
完事 件 之 后 ， 如 果 当 前 线程 集中 没有 领导 者 ， 则 它 将 成 为 新 的 领导 
者 ， 人 否则 它 殉 直接 转变 为 奶 随 者 。 


口 Follower: 线程 当前 处 于 追随 者 身份 ， 通 过 调用 线程 集 的 join 方 
法 等 生成 为 靳 的 领导 者 ， 也 可 能 被 当前 的 领导 者 指定 来 处 理 新 的 任 


务 


图 8-13 显 示 了 这 三 种 状态 之 间 的 转换 关系 。 


Processing 


处 理事 件 


领导 者 交 
代 任 务 


事件 处 理 


事件 处 理 
完成 ， 且 完成 ， 且 
当前 没有 当前 存在 
领导 者 线程 


领导 者 线程 


图 8-13 


被 推选 为 新 的 领导 者 


领导 着 /人 奶 随 者 模式 的 状态 转移 


需要 注意 的 是 ， 领 导 者 线程 推选 新 的 领导 者 和 追随 者 等 待 成 为 新 


领导 者 这 两 个 操作 都 将 修改 线程 集 ， 因 此 线程 集 提供 一 个 成 员 
Synchronizer 来 同步 这 两 个 操作 ， 以 避免 竞 态 条 件 。 


3. 事 件 处 理 郁 和 具体 的 事件 处 理 郁 


事件 处 理 亏 通 单 包 合 一 个 或 多 个 回调 函数 handle_event。 这 些 回调 
函数 用 于 处 理事 件 对 应 的 业务 逻辑 。 事 件 处 理 嚣 在 使 用 前 需要 被 绑 定 
到 某 个 句柄 上 ， 当 该 句柄 上 有 事件 发 生 时 ， 领 导 者 就 执行 与 之 绑 定 的 
事件 处 理 右 中 的 回调 钞 数 。 具 体 的 事件 处 理 占 是 事件 处 理 右 的 派生 
类 。 它 们 必须 重新 实现 基 类 的 handle_event 方 法 ， 以 处 理 特定 的 任务 。 


根据 上 面 的 讨论 ， 我 们 将 领导 者 /追随 者 模式 的 工作 流程 总 结 于 图 
8-14 中 。 


Leader Thread Follower Thread ThreadSet HandleSet ConcreteEventHandler 


BevomeNewLeader| 
walt for event() 


select() 
join0 
Wait 
Event Arrives 


Become New Leader 
| handle event0 
rend | 


promote new leader( 


Join() 


图 8-14 领导 者 /追随 者 模式 


由 于 领导 着 线程 目 己 监听 IO 事件 并 处 理 客户 请 求 ， 因 而 领导 着 / 奶 
随 者 模式 不 需要 在 线程 之 间 传 递 任何 额外 的 数据 ， 也 无 须 像 半 同 步 / 半 
反应 堆 模 式 那 样 在 线程 之 间 同 步 对 请 求 队列 的 访问 。 但 领导 者 /追随 者 
的 一 个 明显 缺点 是 仅 文 持 一 个 事件 产 集 合 ， 因 此 也 无 法 像 独 8-11 所 示 的 
那样 ， 让 每 个 工作 线程 独立 地 管理 多 个 客户 连接 。 


8.6 ” 有限 状 态 机 


前 面 两 节 探 讨 的 是 服务 器 的 MO 处 理 单元 、 请 求 队列 和 逻辑 单元 之 
间 协 调 完 成 任务 的 各 种 模式 ， 这 一 节 我 们 介绍 逻辑 单元 内 部 的 一 种 高 
效 编程 方法 ， 有 限 状态 机 (finite state machine) 。 


有 的 应 用 层 协议 头 部 包含 数据 包 类 型 字段 ， 每 种 类 型 可 以 映 丑 为 
逻辑 单元 的 一 种 执行 状态 ， 服 务 器 可 以 根据 它 来 编写 相应 的 处 理 逻 
辑 ， 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 状态 独立 的 有 限 状 态 机 


STATE_MACHINE(Package_pack ) 
{ 


PackageType_type=_pack,.GetType( ) ， 
Switch(_type) 
{ 


case type_A: 
process_package_A(_pack ) ; 
break; 

case type_B: 
process_package_B(_pack ) ; 
break; 

} 

} 


这 束 古 一 个 简单 的 有 限 状 态 机 ， 只 不 过 该 状态 机 的 每 个 状态 都 是 
相互 独立 的 ， 即 状态 之 间 没 有 相互 转移 。 状 态 之 间 的 转移 是 需要 状态 
机 内 部 驱动 的 ， 如 代码 清单 8-2 所 示 。 


STATE_MACHINE( ) 


代码 清单 8-2 ”市 状态 转移 的 有 限 状 态 机 


{ 

State cur_State=type_A; 
while(cur_State!=type_Cc) 

{ 

Package_pack=getNewPackage( ); 
switch(cur_State) 

{ 

case type_A: 
process_package_state A(_pack); 
cur_State=type_B; 

break; 

case type_B: 
process_package_state_B(_pack); 
cur_State=type_c; 

break; 

} 

} 

} 


该 状态 机 包含 三 种 状态 .type_A、type_B 和 type_C， 其 中 type_A 是 
状态 机 的 开始 状态 ，type_C 是 状态 机 的 结束 状态 。 状 态 机 的 当前 状态 
记录 在 cur_State 变 量 中 。 在 一 趟 循环 过 程 中 ， 状 态 机 移 通过 
getNewPackage 方 法 获得 一 个 新 的 数据 包 ， 然 后 根据 cur_State 变 量 的 值 
判断 如 何 处 理 该 数据 包 。 数 据 包 处 理 完 之 后 ， 状 态 机 通过 给 cur_State 变 
量 传递 目标 状态 值 来 实现 状态 转移 。 那 么 当 状态 机 进入 下 一 趟 循环 
时 ， 它 将 执行 新 的 状态 对 应 的 逻辑 。 


下 面 我 们 考虑 有 限 状 态 机 应 用 的 一 个 实例 :HTTP 请求 的 读 取 和 分 
析 。 很 多 网 络 协 议 ， 包 括 TCP 协 议和 了 PP 协议 ， 都 在 其 头 部 中 提供 头 部 长 
度 字段 。 程 序 根据 该 字段 的 值 就 可 以 知道 是 否 接收 到 一 个 完整 的 协议 
头 部 。 但 HITTP 协 议 并 未 提供 这 样 的 头 部 长 度 字 段 ， 并 且 其 头 部 长 度 变 
化 也 很 大 ， 可 以 只 有 十 几 字 节 ， 也 可 以 有 上 百 字 节 。 根 据 协 议 规定 ， 
我 们 判断 HTTP 头 部 结束 的 依据 是 遇 到 一 个 空 行 ， 该 空 行 仅 包含 一 对 回 
车 换行 符 (<CR> <LF>) 。 如 果 一 次 读 操 作 没 有 读 入 HTTP 请 求 的 
整个 头 部 ， 即 没有 遇 到 空 行 ， 那 么 我 们 必须 等 待 客户 继续 写 数据 并 再 
次 读 入 。 因 此 ， 我 们 每 完成 一 次 读 操 作 ， 就 要 分 析 新 读 入 的 数据 中 是 
否 有 空 行 。 不 过 在 寻找 空 行 的 过 程 中 ， 我 们 可 以 同时 完成 对 整个 HTTP 
请 求 头 部 的 分 析 ( 记 住 ， 空 行 前 面 还 有 请 求 行 和 头 部 域 '， 以 提高 解 
析 HTTP 请 求 的 效率 。 代 码 清单 8-3 使 用 主 、 从 两 个 有 限 状 态 机 实现 了 最 
简单 的 HTTP 请 求 的 读 取 和 分 析 。 为 了 使 表述 简洁 ， 我 们 约定 ， 直 接 称 
HTTP 请 求 的 一 行 〈 包 括 请 求 行 和 头 部 字段 ) 为 行 。 


代码 清单 8-3 ”HTTP 请 求 的 读 取 和 分 析 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include< stdio.h> 
#include<stdlib.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#define BUFFER_SIZE 4096/* 读 缓冲 区 大 小 */ 


/了 


*/ 


enum 


/* 从 ; 


DT 


大 态 刷 


状态 机 的 两 种 可 能 


1 NL 


和 


/* 服 务 器 处 理 HTTP 请 求 的 结果 : 
据 ;， GET_REQUEST 表 示 获 得 
误 ; FORBIDDEN_REQUEST 表 示 客 户 


间 和 行 数 和 


由 [ 昌 ] 


务 器 内 部 错误 ; CLOSED_CONNECTION 表 示 客 户 端 


分 别 表示 : 读 取 到 


状态 ， 分 别 表示 : 当前 正在 分 析 请 求 行 ， 当 前 正在 分 析 头 部 字段 


CHECK_STATE{LCHECK_STATE_REQUESTLINE=0, CHECK_STATE_HEADER}; 
的 三 种 可 能 状态 ， 即 行 的 读 取 状 态 ， 
且 不 完整 */ 
enum LINE_ STATUS{LINE_ OK=0,LINE_ BAD,LINE OPEN}; 


一 个 完整 的 行 、 行 出 


NO_REQUEST 表 示 请 求 不 完整 


了 一 个 完整 的 客户 


,经 关闭 连接 了 * 


， 而 


要 继续 读 取 客 户 


数 


/ 


enum HTTP_CODE{NO_REQUEST, GET_REQUEST, BAD_REQUEST, 
FORBIDDEN_REQUEST, INTERNAL_ERROR, CLOSED_CONNECTION}; 


/* 为 了 简化 问题， 我们 没有 给 客户 


的 处 理 结果 发 送 如 


static const char*szret[]={"I get a correct result\n","Something 


wrong\n' 


/* 从 ; 


'}; 
大 态 机 ， 


于 解析 


成功 或 失败 信息 */ 


出 一 行内 容 */ 


请 求 ，BAD_REQUEST 表 示 客 户 
对 资源 没有 足够 的 访问 权限 ;INTERNAL_ERROR 表 示 服 


请 求 有 语法 错 


端 发 送 一 个 完整 的 HTTP 应 答 报 文 ， 而 只 是 根 和 


LINE_STATUS parse_line(char*buffer,intcchecked_index, intc 
read_index) 


{ 


char temp 


/*checked_index 指 向 buffer ( 
read_index 指 向 buffer 


字 广 都 


已 分 析 完 毕 ， 


客户 


第 checked_index~(read_index-1) 字 万 


一 


程序 的 读 缓 ; 1 当 
的 下 一 字 节 。buffer9 


xX) 


Dy 
忆 


数据 的 


前 正 
第 0 


I 下 


for(;checked_ index<read_index;++checked_index) 


{ 


/* 获 得 当前 : 


M4 


分 析 的 字 节 */ 


temp=buffer[checked_ index]; 


/* 如 及 


当前 的 字 贡 


三 | 
下 


if(temp=="'\r') 


{ 


/* 如 有 
析 没 有 读 有 


析 */ 


“Ar"， 即 回 车 符 ， 则 说 明 可 能 读 


果 “\r” 字 符 从 
到 | 一 个 完整 的 行 ， 返 回 


j 巧 是 目 


人 


的 最 后 


于 buffer 


在 分 析 的 字 节 ， 
~checked_ index 


辐 的 循环 挨个 分 析 */ 


取 到 一 个 完整 的 行 */ 


已 经 被 读 入 的 客户 


LINE_OPEN 以 表示 还 需 : 


数 纪 


if((checked_ index+1)==read_index) 


{ 


return LINE_OPEN ， 


} 4 
/* 如 果 下 


else if(buffer[checked_index+1]=="'\n') 


buffer[checked_index++]='\0 ' ; 
buffer[checked_index++]='\0 ' ; 
return LINE_OK， 


} 


/* 否 则 的 话 ， 


说 明 客户 


return LINE_BAD,; 


} 


发 送 的 HTTP 请 求 存在 语法 问题 */ 


个 字符 是 ^n”， 则 说 明 我 们 成 功 读 取 到 一 个 完整 的 行 */ 


继续 读 取 客户 数 # 


服务 器 


/* 如 果 当 前 的 字 节 是 ^n”， 即 换行 符 ， 则 也 说 明 可 能 读 取 到 一 个 完整 的 行 */ 
else if(temp=="'\n') 


{ 

if((checked_index>1)&&buffer[checked index-1]=='\r') 
{ 

buffer[checked_index-1]=' 0 ' ; 
buffer[checked_index++]='\0 ' ; 

return LINE_ OK,; 


return LINE_BAD ， 


} 

} 

/* 如 果 所 有 内 容 都 分 析 完 毕 也 没 遇 到 “^\r“ 字 符 ， 则 返回 LINE_OPEN， 表 示 还 需要 继续 读 
取 客 户 数 据 才能 进一步 分 析 */ 

return LINE_ OPEN; 


} 
/* 分 析 请 求 行 */ 
HTTP_CODE parse_requestline(char*temp,CHECK_STATE&checkstate) 


char*url=strpbrk(temp,"\t"); 

/* 如 果 请 求 行 中 没有 空白 字符 或 ^t” 字 符 ， 则 HTTP 请 求 必 有 问题 */ 
if(!ur]) 

{ 

return BAD_REQUEST,; 

} 

*Url++="'\QO'，; 

char*method=temp; 
if(strcasecmp(method,"GET" )==90)/* 仅 支持 GET 方 法 */ 


printf("The request method is GET\n"); 
} 


else 


{ 
return BAD_REQUEST; 


} 

url+=strspn(url,"\t"); 
char*version=strpbrk(url,"\t"); 
if(!version) 


return BAD_REQUEST,; 

} 

*version++="' \O'， 
version+=strspn(version,"\t"); 

/* 仅 支持 HTTP/1.,1*/ 
if(strcasecmp(version, "HTTP/1.1")!=0) 
{ 

return BAD_REQUEST,; 


} 


/* 检 查 URL 是 否 合法 */ 
if(strncasecmp(url, "http://",7)==0) 
{ 

Url+=7; 

url=strchr(url,'/'); 


} 
if( 1url||url[0]!='/') 
return BAD_REQUEST ， 


printf("The request URL is:%s\n",ur]l); 
/*HTTP 请 求 行 处 理 完毕 ， 状 态 转移 到 头 部 字段 的 分 析 */ 
checkstate=CHECK_STATE_HEADER; 

return NO_REQUEST ， 


} 

/* 分 析 头 部 字段 */ 

HTTP_CODE parse_headers(char*temp) 

{ 

/* 遇 到 一 个 空 行 ， 说 明 我 们 得 到 了 一 个 正确 的 HTTP 请 求 */ 
if(temp[0]=="'\0') 

{ 


return GET_REQUEST ， 


else if(strncasecmp(temp, "Host:",5)==0)/* 人 处 理 “HOST” 头 部 字段 */ 
{ 

temp+=5; 

temp+=strspn(temp,"\t"); 

printf("the request host is:%s\n",temp); 


} 

else/* 其 他 头 部 字段 都 不 处 理 */ 

{ 

printf("I can not handle this header\n"); 
} 


return NO_REQUEST ， 


} 

/* 分 析 HTTP 请 求 的 入 口 画 数 */ 

HTTP_CODE parse content(char*buffer,int& 
checked_index,CHECK_STATE&checkstate, int&read index, int& 
start_line) 

{ 

LINE_STATUS linestatus=LINE_OK;/* 记 录 当 前 行 的 读 取 状 态 */ 

HTTP_CODE retcode=NO_REQUEST;/* 记 录 HTTP 请 求 的 处 理 结果 */ 

/* 主 状态 机 ， 用 于 从 buffer 中 取出 所 有 完整 的 行 */ 

while( (linestatus=parse_line(buffer,checked_index,read_index))==L 
INE_OK) 


char*temp=buffertstart_line;/*start_line 是 行 在 buffer 中 的 起 始 位 置 */ 
start_line=checked_index;/* 记 录 下 一 行 的 起 始 位 置 */ 


/*checkstate 记 录 主 状态 机 当前 的 状态 */ 


switch(checkstate) 

{ 

case CHECK_STATE_REQUESTLINE:/* 第 一 个 状态 ,分 析 请 求 行 */ 
{ 


retcode=parse_requestline(temp,checkstate); 
if(retcode==BAD_REQUEST) 


return BAD_REQUEST; 
} 


break; 

} Ew 

case CHECK_STATE_HEADER:/* 第 二 个 状态 ,分 析 头 部 字段 */ 
{ 

retcode=parse_headers(temp); 
if(retcode==BAD_REQUEST) 


return BAD_REQUEST ， 


else if(retcode==GET_REQUEST) 


{ 
return GET_REQUEST; 


} 


break; 


} 
default: 


return INTERNAL_ERROR; 


} 
} 


} 
/* 若 没有 读 取 到 一 个 完整 的 行 ， 则 表示 还 需要 继续 读 取 客户 数据 才能 进一步 分 析 */ 
if(linestatus==LINE_OPEN) 


{ 
return NO_REQUEST; 


} 


else 


return BAD_REQUEST ， 


} 
} 


int main(int argc,char*argv[]) 
if(argc<==2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


} 


const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof(address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, address.sin addr); 

address.Sin_port=htons(port ) ; 

int Listenfd=socket(PF_INET, SOCK_STREAM,0) ， 

assert(listenfd>=0); 

int ret=bind(listenfd, (struct sockaddr*)& 
address, sizeof (address) ); 

assert(ret!=-1); 

ret=listen(listenfd, 5); 

assert(ret!=-1); 

struct sockaddr_in client address; 

socklen_t client_addrlength=sizeof(client_address); 

int fd=accept(1listenfd, (struct sockaddr*)&client address,& 
client_addrlength); 


if(fd<0) 

printf("errno is:%d\n",errno); 
} 

else 


char buffer[BUFFER_SIZE];/* 读 缓冲 区 */ 

memset (buffer, '\0',BUFFER_SIZE); 

int data_read=0; 

int read_index=0;/* 当 前 已 经 读 取 了 多 少 字 节 的 客户 数据 */ 

int checked_index=0;/* 当 前 已 经 分 析 完 了 多 少 字 节 的 客户 数据 */ 
int start_line=0;/* 行 在 buffer 中 的 起 始 位 置 */ 

/* 设 置 主 状态 机 的 初始 状态 */ 

CHECK_STATE checkstate=CHECK_STATE_REQUESTLINE; 
while(1)/* 循 环 恋 取 客 户 数据 并 分 析 之 */ 

{ 

data_read=recv(fd,buffer+tread_ index,BUFFER_SIZE-read_index,0); 
if(data_read==-1) 

{ 

printf("reading failed\n"); 

break; 


else if(data_read==0) 

{ 

printf("remote client has closed the connection\n"); 
break; 

} 

read_index+=data_read; 

/* 分 析 目 前 已 经 获得 的 所 有 客户 数据 */ 


HTTP_CODE 
result=parse_content(buffer,checked_index,checkstate,read_ index, star 
t_line); 

if(result==NO_REQUEST)/* 尚 未 得 到 一 个 完整 的 HTTP 请 求 */ 

{ 


continue; 


} 
else if(result==GET_REQUEST)/* 得 到 一 个 完整 的 、 正 确 的 HTTP 请 求 */ 


{ 
send(fd,szret[0],strlen(szret[0]),o); 
break; 


} 
else/* 其 他 情况 表示 发 生 错误 */ 


{ 
send(fd,szret[1],strlen(szret[1]),0); 
break; 


} 
} 
close(fd); 
} 


close(listenfd); 
return 0; 


} 


我 们 将 代码 清单 8-3 中 的 两 个 有 限 状 态 机 分 别称 为 主 状态 机 和 从 状 
态 机 ， 这 体现 了 它们 之 间 的 关系 : 主 状态 机 在 内 部 调用 从 状态 机 。 下 
面 先 分 析 从 状态 机 ， 即 parse_line 函 数 ， 它 从 buffer 中 解析 出 一 个 行 。 图 
8-15 插 述 了 其 可 能 的 状态 及 状态 转移 过 程 。 


未 读 取 到 
完整 请 求 


新 的 客户 LINE OPEN 
数据 到 达 回 车 字符 
和 换行 字符 
读 取 到 回 车 单独 出 现在 
和 换行 字符 HTTP 请 求 中 


LINE OK LINE BAD 


图 8-15 从 状态 机 的 状态 转移 图 


这 个 状态 机 的 初始 状态 是 LINE_OK， 其 原始 驱动 力 来 自 于 buffer 中 
新 到 达 的 客户 数据 。 在 main 芳 数 中 ， 我 们 循环 调用 recv 芳 数 往 buffer 中 
读 入 客户 数据 。 每 次 成 功 读 取 数 据 后 ， 我 们 就 调用 parse_content 范 数 来 
分 析 新 读 入 的 数据 。parse_content 函 数 首 先 要 做 的 就 是 调用 parse_line 了 范 
数 来 获取 一 个 行 。 现 在 假设 服务 器 经 过 一 次 recv 调 用 之 后 ，buffer 的 内 
容 以 及 部 分 变量 的 值 如 图 8-16a 所 示 。 


parse_line 函 数 处 理 后 的 结果 如 图 8-16b 所 示 ， 它 挨个 检查 图 8-16a 所 
示 的 buffer 中 checked_index 到 (read_index-1) 之 间 的 字 节 ， 判 断 是 否 存 
在 行 结束 符 ， 并 更 新 checked_index 的 值 。 当 前 buffer 中 不 存在 行 结 束 

， 所 以 parse_line 返 回 LINE_OPEN。 接 下 来 ， 程 序 继续 调用 recv 以 读 
取 更 多 客户 数据 ， 这 次 读 操作 后 buffer 中 的 内 容 以 及 部 分 变量 的 值 如 图 
8-16c 所 示 。 然 后 parse_line 了 范 数 就 勾 开 始 处 理 这 部 分 新 到 来 的 数据 ， 如 
图 8-16d 所 示 。 这 次 它 读 取 到 了 一 个 完整 的 行 
即 “HOST:localhost\n”。 此 时 ，parse_line 范 数 就 可 以 将 这 行内 容 递 交 给 
parse_content 函 数 中 的 主 状态 机 来 处 理 了 。 
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图 8-16 parse_line 函 数 的 工作 过 程 


a) 调用 recv 后 ，buffer 里 的 初始 内 容 和 部 分 变量 的 值 b) parse_line 画 
数 处 理 buffer 后 的 结 c) 再 次 调用 recv 后 的 结 d) parse_line 函 数 
再 次 处 理 buffer 后 的 结果 


主 状态 机 使 用 checkstate 变 量 来 记录 当前 的 状态 。 如 果 当 前 的 状态 
是 CHECK_STATE_REQUESTLINE， 则 表示 parse_line 画 数 解 析出 的 行 
是 请 求 行 ， 于 是 主 状态 机 调用 parse_requestline 来 分 析 请 求 行 ， 如 果 当 
前 的 状态 是 CHECK_STATE_HEADER， 则 表示 parse_line 画 数 解 析出 的 
是 头 部 字段 ， 于 是 主 状态 机 调用 parse_headers 来 分 析 头 部 字段 。 
checkstate 变 量 的 初始 值 是 CHECK_STATE_REQUESTLINE， 
parse_requestline 函 数 在 成 功 地 分 析 完 请 求 行 之 后 将 其 设置 为 
CHECK_STATE_HEADER， 从 而 实现 状态 转移 。 


8.7” 近 高 服务 万 性 能 的 其 他 建议 


性 能 对 服务 絮 来 说 古 至 天 重要 的 ， 毕 苋 每 个 客户 都 期 衣 其 请 求 能 
很 快 地 得 到 啊 应 。 影 响 服务 器 性 能 的 自 要 因素 忠 古 系统 的 硬件 资源 ， 
比如 CPU 的 个 数 、 速 度 ， 内 存 的 大 小 等 。 不 过 由 于 硬件 技术 的 飞速 发 
展 ， 现 代 服 务 器 都 不 缺乏 硬件 资源 。 因此， 我 们 需要 堵 虑 的 主要 问题 
古 如 何 从 “软环境 ”来 提升 服务 紫 的 性 能 。 服 务 右 的 “软环境 "， 一 方面 
是 指 系统 的 软件 资源 ， 比 如 操作 系统 允许 用 户 打 开 的 最 大 文件 描述 符 
数量 ， 男 一 方面 指 的 整 是 服务 器 程序 本 号 ， 即 如 何 从 编程 的 角度 来 确 
傈 服务 絮 的 性 能 ， 这 是 本 市 要 讨论 的 问题 。 


前 面 我 们 介绍 了 几 种 高 效 的 事件 处 理 模式 和 并 发 模式 ， 以 及 高 效 
的 逻辑 处 理 方式 一 一 有 限 状 态 机 ， 它 们 都 有 助 于 提 融 服 务 紫 的 整体 性 
能 。 下 面 我 们 进一步 分 析 高 性 能 服务 器 需要 注意 的 其 他 几 个 方面 : 
池 、 数 据 复制 、 上 下 文 切 换 和 锁 。 


8.7.1 池 
既然 服务 器 的 硬件 资源 “充裕 ”， 那 么 提高 服务 器 性 能 的 一 个 很 直 


接 的 方法 束 是 以 空间 换 时 间 ， 即 * 良 费 ” 服 务 需 的 硬件 资产， 以 换取 其 


运行 效率 。 这 就 是 池 (pool) 的 概念 。 池 是 一 组 资源 的 集合 ， 这 组 资 


源 在 服务 器 局 动 之 初 束 修 完 全 创建 好 并 初始 化 ， 这 称 为 静态 资源 分 

配 。 当 服务 器 进入 正式 运行 阶段 ， 即 开始 处 理 客户 请 求 的 时 候 ， 如 采 
它 需 要 相关 的 资源 ， 束 可 以 直接 从 池 中 获取 ， 无 须 动 态 分 配 。 很 显 

然 ， 直接 从 池 中 取得 所 需 资 源 比 动态 分 配 资 源 的 速度 要 快 得 多 ， 因 为 
分 配 系 统 资源 的 系统 调用 部 是 很 耗 时 的 。 当 服务 右 处 理 完 一 个 客户 连 
接 后 ， 可 以 把 相关 的 资源 放 回 池 中 ， 无 须 执行 系统 调用 来 释放 资源 。 
从 最 终 的 效果 来 看 ， 池 相当 于 服务 右 管 理 系 统 资 源 的 应 用 层 设 施 ， 它 
避免 了 服务 右 对 内 核 的 频 芭 访问 。 


不 过 ， 有 既然 池 中 的 资源 是 预先 静 仿 分 配 的 ， 我 们 就 无 法 预期 应 该 
分 配 多 少 资 源 。 这 个 问题 又 该 如 何 解 决 呢 ?最 简单 的 解决 方案 束 是 分 
配 “ 足 够 多 ”的 资源 ， 即 针对 每 个 可 能 的 客户 连接 都 分 配 必 要 的 资源 。 
这 通常 会 导致 质 源 的 浪费 ， 因 为 任 一 时 刻 的 客户 数量 都 可 能 远 远 没有 
达到 服务 器 能 文 持 的 最 大 客户 数量 。 好 在 这 种 资源 的 浪费 对 服务 器 来 
说 一 般 不 会 构成 问题 。 还 有 一 种 解决 方案 是 预先 分 配 一 定 的 资源 ， 此 
后 如 果 发 现 资源 不 够 用 ， 束 再 动态 分 配 一 些 并 加 入 池 中 。 


根据 不 同 的 资源 类 型 ， 池 可 分 为 多 种 ， 和 常见 的 有 内 存 池 、 进程 
池 、 线程 池 和 连接 池 “。 它 们 的 侣 义 都 很 明确 。 


内 存 池 通 利用 于 socket 的 接收 缓存 和 发 送 缓存 。 对 于 有 某 些 长 度 有 
限 的 客户 请 求 ， 比 如 HTTP 请 求 ， 预 完 分配 一 个 大 小 足够 (比如 5000 字 


广 ) 的 接收 缓存 区 是 很 合理 的 。 当 客户 请 求 的 长 度 超 过 接收 缓冲 区 的 
大 小 时 ， 我 们 可 以 选择 丢弃 请 求 或 者 动态 扩大 接收 缓冲 区 。 


进程 池 和 线程 池 都 是 并 发 编程 第 用 的 “ 伎 癸 *”。 当 我 们 需要 一 个 工 
作 进程 或 工作 线程 来 处 理 新 到 来 的 客户 请 求 时 ， 我 们 可 以 直接 从 进程 
池 或 线程 池 中 取得 一 个 执行 实体 ， 而 无 须 动态 地 调用 fork 或 
pthread_create 等 国 数 来 创建 进程 和 线程 。 


连接 池 通 常用 于 服务 器 或 服务 器 机 群 的 内 部 永久 连接 。 图 8-4 中 ， 
每 个 逻辑 单元 可 能 都 需要 频繁 地 访问 本 地 的 某 个 数据 库 。 简 单 的 做 法 
: 逻辑 单元 每 次 需要 访问 数据 库 的 时 候 ， 就 癌 数据 库 程 序 发 起 连 
接 ， 而 访问 完毕 后 释放 连接 。 很 显然 ， 这 种 做 法 的 效率 太 低 。 一 种 解 
决 方案 是 使 用 连接 池 “。 连 接 池 是 服务 器 预先 和 数据 库 程 序 建立 的 一 组 
连接 的 集合 。 当 某 个 逻辑 单元 需要 访问 数据 库 时 ， 它 可 以 直接 从 连接 
池 中 取得 一 个 连接 的 实体 并 使 用 之 。 待 完成 数据 库 的 访问 之 后 ， 逻 辑 
单元 再 将 该 连接 返还 给 连接 池 。 


Pf 


8.7.2 ”数据 复制 


高 性 能 服务 絮 应 该 避免 不 必要 的 数据 复制 ， 尤 其 是 当 数 据 复 制 发 
生 在 用 户 代码 和 内 核 之 间 的 时 候 。 如 果 内 核 可 以 直接 处 理 从 socket 或 
者 文件 读 入 的 数据 ， 则 应 用 程序 束 没 必要 将 这 些 数据 从 内 核 缓冲 区 复 


制 到 应 用 程序 绥 冲 区 中 。 这 里 说 的 “直接 处 理 ” 指 的 是 应 用 程序 不 关心 
这 些 数据 的 内 容 ， 不 需要 对 它们 做 任何 分 析 。 比 如 ftp 服 务 上 ， 当 客户 
请 求 一 个 文件 时 ， 服 务 器 只 需要 检测 目标 文件 是 否 存在 ， 以 及 客户 是 
否 有 读 取 它 的 权限 ， 而 绝对 不 会 关心 文件 的 具体 内 容 。 这 样 的 话 ，ftp 
服务 硕 葡 无须 把 目标 文件 的 内 容 完 整地 读 入 到 应 用 程序 缓冲 区 中 并 调 
用 send 范 数 来 发 送 ， 而 是 可 以 使 用 “ 臭 找 贝 * 芳 数 sendfile 来 直接 将 其 发 
送 给 客户 端 。 


此 外 ， 用 户 代 码 内 部 〈 不 访问 内 核 ) 的 数据 复制 也 是 应 该 避免 
的 。 举 例 来 说 ， 当 两 个 工作 进程 之 间 要 传递 大 量 的 数据 时 ， 我 们 就 应 
该 考虑 使 用 共 至 内 存 来 在 它们 之 间 直 接 共 至 这 些 数据 ， 而 不 古 使 用 管 
道 或 者 消 轧 队列 来 传递 。 又 比如 代码 清单 8-3 所 示 的 解 机 HTTP 请求 的 
实例 中 ， 我 们 用 指针 (start_line) 来 指出 每 个 行 在 buffer 中 的 起 始 位 
置 ， 以 便 随 后 对 行内 容 进行 访问 ， 而 不 是 把 行 的 内 容 复制 到 另外 一 个 
缓冲 区 中 来 使 用 ， 因 为 这 样 既 痕 费 空间 ， 又 效率 低下 。 


8.7.3 上下文 切换 和 锁 


并 发 程序 必须 考虑 上 下 文 切换 (context switch) 的 问题 ， 即 进程 
切换 或 线程 切换 导致 的 的 系统 开销 。 即 使 是 1O 密 集 型 的 服务 右 ， 也 不 
应 该 使 用 过 多 的 工作 线程 《或 工作 进程 ， 下 同 ) ， 人 否则 线程 间 的 切换 
将 占用 大 量 的 CPU 时 间 ， 服 务 器 真正 用 于 处 理 业 务 逻 辑 的 CPU 时 间 的 


比重 吏 显 得 不 足 了 。 因 此 ， 为 每 个 客户 连接 都 创建 一 个 工作 线程 的 服 
务 絮 模型 是 不 可 取 的 。 图 8-11 所 接 述 的 半 同 步 / 半 异 步 模 式 是 一 种 比较 
合理 的 解决 方 宁 ， 它 允许 一 个 线程 同时 处 理 多 个 客户 连接 。 此 外 ， 多 
线程 服务 右 的 一 个 优点 是 不 同 的 线程 可 以 同时 运行 在 不 同 的 CPU 上 。 
当 线程 的 数量 不 大 于 CPU 的 数目 时 ， 上 下 文 的 切换 就 不 是 问题 了 。 


并 发 程序 需要 考虑 的 另外 一 个 问题 是 共 至 资源 的 加 锁 保 护 。 锁 通 
常 彼 认为 是 导致 服务 器 效率 低下 的 一 个 因素 ， 因 为 由 它 引 入 的 代码 不 
仅 不 处 理 任何 业务 逻辑 ， 而 且 需 要 访问 内 核资 源 。 因 此 ， 服 务 右 如 采 
有 更 好 的 解决 方案 ， 殊 应 该 避免 使 用 锁 。 显 然 ， 图 8-11 所 描述 的 半 同 
步 / 半 异 步 模式 束 比 图 8-10 所 描述 的 半 同 步 / 半 反 应 堆 模 式 的 效率 高 。 如 
果 服 务必 必须 使 用 “ 锁 *”， 则 可 以 考虑 减 小 锁 的 粒度 ， 比 如 使 用 读 写 
锁 。 当 所 有 工作 线程 都 只 读 取 一 块 共 至 内 存 的 内 容 时 ， 读 写 锁 并 不 会 
增加 系统 的 额外 开销 。 只 有 当 其 中 某 一 个 工作 线程 需要 写 这 块 内 存 
时 ， 系 统 才 必须 去 锁 住 这 块 区 域 。 


第 9 章 1/O 复 用 


IO 复 用 使 得 程序 能 同时 监听 多 个 文件 摘 述 符 ， 这 对 提高 程序 的 性 
能 至 关 重 要 。 通 遂 ， 网 络 程序 在 下 列 情况 下 需要 使 用 MO 复 用 技术 : 


口 客户 端 程序 要 同时 处 理 多 个 socket。 比 如 本 章 将 要 讨论 的 非 阻 塞 
connect 技 术 。 


口 客户 端 程序 要 同时 处 理 用 户 输入 和 网 络 连接 。 比 如 本 章 将 要 讨 
论 的 聊天 室 程 序 。 


口 TCP 服 务 器 要 同时 处 理 监听 socket 和 连接 socket。 这 是 1O 复 用 使 
用 最 多 的 场合 。 后 续 章 市 将 展示 很 多 这 方面 的 例子 。 


口服 务 器 要 同时 处 理 TCP 请 求 和 UDP 请 求 。 比 如 本 章 将 要 讨论 的 
回 射 服务 右 。 


口服 务 器 要 同时 监听 多 个 端口 ， 或 者 处 理 多 种 服务 。 比 如 本 章 将 
要 讨论 的 xinetd 服 务 器 。 


需要 指出 的 是 ，IO 复 用 虽然 能 同时 监听 多 个 文件 描述 符 ， 但 它 本 
吴 是 阻塞 的 。 并 且 当 多 个 文件 描述 符 同 时 束 绪 时 ， 如 采 不 采取 额外 的 
措施 ， 程 序 就 只 能 按 顺序 依次 处 理 其 中 的 每 一 个 文件 描述 符 ， 这 使 得 


服务 硕 程 序 看 起 来 像 是 哩 行 工作 的 。 如 有 果 要 实现 并 发 ， 只 能 使 用 多 进 
程 或 多 线程 等 编程 手段 。 


Linux 下 实现 MO 复 用 的 系统 调用 主要 有 select、poll 和 epoll， 本 章 
将 依次 讨论 之 ， 然 后 介绍 使 用 它们 的 几 个 实例 。 


9.1 select 系统 调用 


select 系 统 调 用 的 用 途 古 : 在 一 段 指定 时 间 内 ， 监 听 用 户 感 兴趣 的 
文件 摘 述 符 上 的 可 读 、 可 写 和 腊 常 等 事件 。 本 世 先 介绍 select 系 统 调用 
的 API， 然 后 讨论 select 判 断 文件 描述 符 束 绪 的 条 件 ， 最 后 给 出 它 在 处 
理 市 外 数据 中 的 实际 应 用 。 


9.1.1 select API 


select 系 统 调用 的 原型 如 下 : 


#include<sys/select.h> 

int select(int 
nfds,fd_ set*readfds,fd set*writefds,fd_ set*exceptfds,struct 
timeval*timeout); 


1) nfds 参 数 指定 被 监听 的 文件 描述 符 的 总 数 。 它 通常 被 设置 为 
Select 监听 的 所 有 文件 描述 符 中 的 最 大 值 加 1， 因 为 文件 描述 符 是 从 0 开 
台 计 数 的 。 


2) readfds、writefds 和 exceptfds 参 数 分 别 指 同 可 读 、 可 写 和 异常 
等 事件 对 应 的 文件 描述 符 集合 。 应 用 程序 调用 select 函 数 时 ， 通 过 这 3 
个 参数 传 入 自己 感 兴趣 的 文件 描述 符 。select 调 用 返回 时 ， 内 核 将 修改 
它们 来 通知 应 用 程序 哪些 文件 描述 符 已 经 就 绪 。 这 3 个 参数 是 fd_set 结 
构 指 针 类 型 。fd_set 结 构 体 的 定义 如 下 : 


#include<typesizes.h> 

#define FD_SETSIZE 1024 
#include<sys/select.h> 

#define FD_SETSIZE _FD_SETSIZE 

typedef long int__fd_ mask; 

#undef__NFDBITS 

#define NFDBITS(8*(int)sizeof(__fd_mask)) 
typedef struct 


#ifdef__USE XOPEN 
_ fd mask fds_ bits[__FD_ SETSIZE/__NFDBITS]; 
#define _FDS_BITS(set)((set)->fds_ bits) 
#else 

fd mask_ fds bits[ FD_ SETSIZE/__NFDBITS]; 
#define FDS_BITS(set)((set)->__fds_bits) 
#endif 
}fd_set; 


由 以 上 定义 可 见 ，fd_set 结 构 体 仅 包含 一 个 整 型 数组 ， 该 数组 的 每 
个 元 素 的 每 一 位 (bit) 标记 一 个 文件 描述 符 。fd_set 能 容纳 的 文件 描述 
符 数 量 由 FD_SETSIZE 指 定 ， 这 束 限 制 了 select 能 同时 处 理 的 文件 描述 


符 的 总 量 。 


由 于 位 操作 过 于 烦琐 ， 我 们 应 该 使 用 下 面 的 一 系列 宏 来 访问 fd_set 
结构 体 中 的 位 : 


#include<sys/select.h> 

FD_ZERO(fd_set*fdset ) ;/* 清 除 fdset 的 所 有 位 */ 

FD_SET(int fd,fd_set*fdset);/* 设 置 fdset 的 位 fd*/ 

FD_CLR(int fd,fd_set*fdset );/* 清 除 fdset 的 位 fd*/ 

int FD_ISSET(int fd, fd_set*fdset );/* 测 试 fdset 的 位 fd 是 否 被 设置 */ 


3) timeout 参 数 用 来 设置 select 函 数 的 超时 时 间 。 它 是 一 个 timeval 
结构 类 型 的 指针 ， 采 用 指针 参数 是 因为 内 核 将 修改 它 以 告诉 应 用 程序 
select 等 待 了 多 久 。 不 过 我 们 不 能 完全 信任 select 调 用 返回 后 的 timeonut 
值 ， 比 如 调用 失败 时 timeout 值 是 不 确定 的 。timeval 结 构 体 的 定义 如 
下 


struct timeval 


{ 

long tv_sec;/* 秒 数 */ 
long tv_usec;/* 微 秒 数 */ 
}; 


由 以 上 定义 可 见 ，select 给 我 们 提供 了 一 个 微 秒 级 的 定时 方式 。 如 
果 给 timeout 变 量 的 tv_sec 成 员 和 tv_usec 成 员 都 传递 0， 则 select 将 立即 返 


回 。 如 果 给 timeout 传 递 NULEL， 则 select 将 一 直 阻 塞 ， 直 到 某 个 文件 描 
述 符 就 绪 。 


select 成 功 时 返回 就 绪 〈 可 读 、 可 写 和 有 异常 ) 文件 描述 符 的 总 数 。 
如 宁 在 超时 时 间 内 没有 任何 文件 措 述 符 束 绪 ，select 将 返回 0。select 失 
败 时 返回 -1 并 设置 erno。 如 果 在 select 等 待 期 间 ， 程 序 接收 到 信号 ， 则 


select 立 即 返 回 -1， 并 设置 errno 为 EINTR。 


9.1.2 ”文件 摘 述 符 束 绪 条 件 
哪些 情况 下 文件 摘 述 符 可 以 被 认为 是 可 读 、 可 写 或 者 出 现 异 沉 ， 
对 于 select 的 使 用 非常 关键 。 在 网 络 编程 中 ， 下 列 情况 下 socket 可 读 : 


口 socket 内 核 接收 缓存 区 中 的 字 节 数 大 于 或 等 于 其 低 水 位 标记 
SO_RCVLOWAT。 此 时 我 们 可 以 无 阻塞 地 读 该 socket， 并 且 读 操作 返 
回 的 字 节 数 大 于 0。 


品 socket 通 信 有 的 对 方 天 闭 连 授 。 此 时 对 该 socket 的 读 操 作 将 返回 0 。 
口 监听 socket 上 有 新 的 连接 请 求 。 


口 socket 上 有 未 处 理 的 错误 。 此 时 我 们 可 以 使 用 getsockopt 来 读 取 
和 清除 该 错误 。 

下 列 情 况 下 socket 可 写 : 

口 socket 内 核发 送 缓存 区 中 的 可 用 字 市 数 大 于 或 等 于 其 低 水 位 标记 


SO_SNDLOWAT。 此 时 我 们 可 以 无 阻塞 地 写 该 socket， 并 且 写 操作 返 
回 的 字 节 数 大 于 0。 


口 socket 的 写 操作 被 天 闭 。 对 写 操 作 被 天 闭 的 socket 执 行 写 操作 将 
触发 一 个 SIGPIPE 信 号 。 


口 socket 使 用 非 阻 塞 connect 连 接 成 功 或 者 失败 (超时 ) 之 后 。 


口 socket 上 有 未 处 理 的 错误 。 此 时 我 们 可 以 使 用 getsockopt 来 读 取 
和 清除 该 错误 。 


网 络 程序 中 ，select 能 处 理 的 异常 情况 只 有 一 种 : socket 上 接收 到 
带 外 数据 。 下 面 我 们 详细 讨论 之 


9.1.3 ”处 理 带 外 数据 


上 一 小 节 提 到 ，socket 上 接收 到 普通 数据 和 市 外 数据 都 将 使 select 
返回 ， 但 socket 处 于 不 同 的 就绪 状态 ， 前 者 处 于 可 读 状 态 ， 后 者 处 于 
异常 状态 。 代 码 清单 9-1 描 述 了 select 是 如 何 同时 处 理 二 者 的 。 


代码 清单 9-1 同时 接收 普通 数据 和 市 外 数据 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#include<stdlib.h> 

int main(int argc,char*argv[]) 


{ 
if(argc<==2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 


return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 

assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 

struct sockaddr_in client address; 

socklen t client_addrlength=sizeof(client_address); 

int connfd=accept(listenfd, (struct sockaddr*)&client address,& 
client_addrlength); 

if(connfd<0) 

{ 

printf("errno is:%d\n",errno); 

close(listenfd); 


} 
char buf[1024]; 
fd_set read_fds; 
fd_set exception_fds; 
FD_ZERO(&read fds); 
FD_ZERO(&exception fds); 
while(1) 
{ 
memset(buf,'\0',sizeof(buf)); 
/* 每 次 调用 select 前 都 要 重新 在 read_fds 和 exception_fds 中 设置 文件 描述 符 
connfd， 因 为 事件 发 生 之 后 ， 文 件 描 述 符 集合 将 被 内 核 修 改 */ 
FD_SET(connfd, &read fds); 
FD_SET(connfd, &exception_ fds); 
ret=select(connfd+1, Sread fds,NULL, eexception_ fds, NULL); 
if(ret<0) 
{ 
printf("selection failure\n"); 
break; 


也 


/* 对 于 可 读 事件 ， 采 用 普通 的 recv 函 数 读 取 数 据 */ 
if(FD_ISSET(connfd, &read_ fds)) 
{ 
ret=recv(connfd, buf, sizeof (buf)-1,0); 
if(ret<=0) 


{ 


break; 


} 


printf("get%d bytes of normal data:%s\n",ret, buf); 


} 

/* 对 于 异常 事件 ， 采 用 带 MSG_00B 标 志 的 recv 函 数 读 取 带 外 数 于 
else if(FD_ISSET(connfd, Sexception_fds)) 
{ 
ret=recv(connfd, buf, sizeof (buf)-1,MSG_ O00B); 
if(ret<=0) 
{ 


break; 


} 
printf("get%d bytes of oob data:%s\n",ret,buf); 
} 
} 


close(connfd); 
close(listenfd); 
return ©; 


} 


与 * 


口 


/ 


9.2 poll 系统 调用 


poll 系 统 调用 和 select 类 似 ， 也 是 在 指定 时 间 内 轮 询 一 定数 量 的 文件 
接 述 得 ， 以 测试 其 中 十 否 有 整 绪 者 。poll 的 原型 如 下 : 


#include<poll.h> 
int poll(struct pollfd*fds,nfds_t nfds,int timeout); 


1) fds 参 数 是 一 个 pollfd 结 构 类 型 的 数组 ， 它 指定 所 有 我 们 感 兴趣 
的 文件 接 述 人 特 上 发 生 的 可 读 、 可 写 和 异 稼 等 事件 。pollfd 结 构 体 的 定义 
则 下 


struct pollfd 


{ 

int fd;/* 文 件 描述 符 */ 

short events;/* 注 册 的 事件 */ 

short revents;/* 实 际 发 生 的 事件 ， 由 内 核 填 充 */ 
}; 


其 中 ，fd 成 员 指 定 文 件 摘 述 符 ; events 成 员 告 诉 pol 监 听 fd 上 的 哪些 
事件 ， 它 是 一 系列 事件 的 按 位 或 ; revents 成 员 则 由 内 核 修改 ， 以 通知 
应 用 程序 fd 上 实际 发 生 了 哪些 事件 。poll 支 持 的 事件 类 型 如 表 9-1 所 示 。 


表 9-1 poll 事件 类 型 


事 件 描 述 是 否 可 作为 输入 | 是 否 可 作为 输出 
POLLIN 数据 (包括 普通 数据 和 优先 数据 〉 可 读 是 是 
POLLRDNORM 普通 数据 可 读 是 是 
POLLRDBAND 优先 级 带 数据 可 读 〈Linux 不 支持 ) 是 是 
POLLPRI 高 优先 级 数据 可 读 ， 比 如 TCP 带 外 数据 是 是 
POLLOUT 数据 (包括 普通 数据 和 优先 数据 〉 可 写 是 是 

( 续 ) 

事 件 描 述 是 否 可 作为 输入 | 是 否 可 作为 输出 
POLLWRNORM 普通 数据 可 写 是 是 
POLLWRBAND 优先 级 带 数据 可 写 是 是 

连接 被 对 方 关 闭 ， 或 者 对 方 关 闭 了 写 操作 。 它 由 
RE TCP 连接 被 对 方 关闭 ， 或 者 对 方 关 闭 了 写 操作 。 它 由 是 是 
GNU 引入 
POLLERR 错误 否 是 
佳 走 如 管道 的 写 端 被 关 P ， 读 端 描 述 符 上 将 收 
OS 挂 起 。 比 如 管道 的 写 端 被 关闭 后 ， 读 端 描述 符 上 将 收 四 是 
到 POLLHUP 事件 
POLLNVAL 文件 描述 符 没 有 打开 否 是 


表 9-1 中 ,，POLLRDNORM 、POLLRDBAND 、POLLWRNORM 、 
POLLWRBAND 由 XOPEN 规 范 定 义 。 它 们 实际 上 是 将 POLLIN 事 件 和 
POLLOUT 事 件 分 得 更 细致 ， 以 区 别 对 待 普通 数据 和 优先 数据 。 但 
Linux 并 不 完全 支持 它们 。 


通常 ， 应 用 程序 需要 根据 recv 调 用 的 返回 值 来 区 分 socket 上 接收 到 
的 是 有 效 数据 还 是 对 方 关闭 连接 的 请 求 ， 并 做 相应 的 处 理 。 不 过 ， 自 
Linux 内 核 2.6.17 开 始 ，GNU 为 poll 系 统 调 用 增加 了 一 个 POLLRDHUP 事 
件 ， 它 在 socket 上 接收 到 对 方 关闭 连接 的 请 求 之 后 触发 。 这 为 我 们 区 分 
上 述 两 种 情况 提供 了 一 种 更 简单 的 方式 。 但 使 用 POLLRDHUP 事 件 
时 ， 我 们 需要 在 代码 最 开始 处 定义 _GNU_SOURCE 。 


2) nfds 参 数 指定 被 监听 事件 集合 fds 的 大 小 。 其 类 型 nfds_t 的 定义 
0 


typedef unsigned long int nfds_t; 


3) timeout 参 数 指 定 pol 的 超时 值 ， 单 位 是 宣 秒 。 当 timeout 为 -1 
时 ，pol 调 用 将 永远 阻塞 ， 直 到 某 个 事件 发 生 ; 当 timeout 为 0 时 ，poll 调 
用 将 立即 返回 。 


pol] 系 统 调用 的 返回 值 的 舍 义 与 select 相 同 。 


9.3 epoll 系 列 系统 调用 


9.3.1 内 核 事件 表 


epoll 是 Linux 特 有 的 W/O 复 用 了 芳 数 。 它 在 实现 和 使 用 上 与 select、 
poll 有 很 大 差异 。 首 先 ，epoll 使 用 一 组 函数 来 完成 任务 ， 而 不 是 单个 
函数 。 其 次 ，epol 把 用 户 关心 的 文件 描述 符 上 的 事件 放 在 内 核 里 的 一 
个 事件 表 中 ， 从 而 无 须 像 select 和 poll 那 样 每 次 调用 都 要 重复 传 入 文件 
描述 符 集 或 事件 集 。 但 epol 需 要 使 用 一 个 额外 的 文件 描述 符 ， 来 唯一 
标识 内 核 中 的 这 个 事件 表 。 这 个 文件 描述 符 使 用 如 下 epollL_create 函 数 
来 创建 : 


#include<sys/epoll.h> 
int epoll create(int size) 


Size 参数 现 在 并 不 起 作用 ， 只 是 给 内 核 一 个 提示 ， 告 诉 它 事件 表 
需要 多 大 。 该 函数 返回 的 文件 描述 符 将 用 作 其 他 所 有 epoll 系 统 调用 的 
第 一 个 参数 ， 以 指定 要 访问 的 内 核 事 件 表 。 


下 面 的 函数 用 来 操作 epoll 的 内 核 事 件 表 : 


#include<sys/epoll.h> 
int epoll ctl(int epfd,int op,int fd,struct epoll event*event) 


fd 参数 是 要 操作 的 文件 描述 符 ，op 参 数 则 指定 操作 类 型 。 操 作 类 
型 有 如 下 3 种 : 


DEPOLL_CTL_ADD， 往 事件 表 中 注册 fd 上 的 事件 。 
DEPOLL_CTL_MOD， 修 改 fd 上 的 注册 事件 。 
DEPOLL_CTL_DEL， 删 除 fd 上 的 注册 事件 。 


event 人 参数 指定 事件 ， 它 是 epoll_event 结 构 指 针 类 型 。epoll_event 的 


定义 如 下 ; 


struct epoll event 

{ 

uint32_t events;/*epoll 事 件 */ 
epoll _ data_t data;/* 用 户 数据 */ 
}; 


其 中 events 成 员 描述 事件 类 型 。epoll 支 持 的 事件 类 型 和 poll 基 本 相 
同 。 表 示 epoll 事 件 类 型 的 宏 是 在 poll 对 应 的 宏 前 加 上 “E”， 比 如 epoll 的 
数据 可 读 事件 是 EPOLLIN。 但 epoll 有 两 个 额外 的 事件 类 型 一 一 
EPOLLET 和 EPOLLONESHOT。 它 们 对 于 epoll 的 高 效 运作 非常 天 键 ， 
我 们 将 在 后 面 讨论 它们 。data 成 员 用 于 存储 用 户 数 据 ， 其 类 型 
epoll_data_t 的 定义 如 下 : 


typedef union epoll _ data 


void*ptr; 
int fd; 


Uint32_t U32 ， 
uint64 t u64; 
}epoll data t; 


epoll_data_t 是 一 个 联合 体 ， 其 4 个 成 员 中 使 用 最 多 的 是 fd， 它 指定 
事件 所 从 属 的 目标 文件 描述 符 。ptr 成 员 可 用 来 指定 与 fd 相关 的 用 户 数 
据 。 但 由 于 epoll_data_t 是 一 个 联合 体 ， 我 们 不 能 同时 使 用 其 ptr 成 员 和 
fd 成 员 ， 因 此 ， 如 果 要 将 文件 描述 符 和 用 户 数据 关联 起 来 (正如 8.5.2 
小 节 讨 论 的 将 句柄 和 事件 处 理 器 绑 定 一 样 ) ， 以 实现 快速 的 数据 访 
问 ， 只 能 使 用 其 他 手段 ， 比 如 放弃 使 用 epoll_data_t 的 fd 成 员 ， 而 在 pt 
指向 的 用 户 数据 中 包含 fd 。 


epoll_ctl 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errmno。 
9.3.2 epoll_wait 函 数 

epoll 系 列 系统 调用 的 主要 接口 是 epoll_wait 函 数 。 它 在 一 段 超时 时 
间 内 等 待 一 组 文件 描述 符 上 的 事件 ， 其 原型 如 下 : 


#include<sys/epoll.h> 
int epoll wait(int epfd,struct epoll event*events, Int 
maxevents, int timeout); 


该 男 数 成 功 时 返回 号 绪 的 文件 描述 符 的 个 数 ， 失 败 时 返回 -1 并 设 


置 errno 3 


天 于 该 函数 的 参数 ， 我 们 从 后 往 前 讨论 。timeout 参 数 的 含义 与 
poll 接 口 的 ttmeout 参 数 相 同 。maxevents 参 数 指定 最 多 监听 多 少 个 事 


件 ， 它 必须 大 于 0 。 


epoll_wait 函 数 如 果 检 测 到 事件 ， 融 将 所 有 吏 绪 的 事件 从 内 核 事 件 
表 (由 epfd 参 数 指定 ) 中 复制 到 它 的 第 二 个 参数 events 指 向 的 数组 中 。 
这 个 数组 只 用 于 输出 epoll_wait 检 测 到 的 殉 绪 事件 ， 而 不 像 select 和 poll 
的 数组 参数 那样 既 用 于 传 入 用 户 注册 的 事件 ， 又 用 于 输出 内 核 检 测 到 
的 束 绪 事件 。 这 束 极 大 地 提高 了 应 用 程序 索引 束 绪 文件 搬 述 符 的 效 
率 。 代 码 清 单 9-2 体 现 了 这 个 差别 。 


代码 清单 9-2” ”poll 和 epoll 在 使 用 上 的 差别 


/* 如 何 索 引 pol1l 返 回 的 就 绪 文 件 描述 符 */ 

int ret=poll(fds,MAX_EVENT_NUMBER, -1); 

/* 必 须 遍 历 所 有 已 注册 文件 描述 符 并 找到 其 中 的 就 绪 者 (当然 ， 可 以 利用 ret 来 稍 做 优 
化 ) */ 

for(int 1I=0; 工 < MAX_EVENT_NUMBER ;++I) 


{ 
if(fds[i].revents 多 POLLIN)/* 判 断 第 i 个 文件 描述 符 是 否 就 绪 */ 


int sockfd=fds[i].fd; 
/* 处 理 sockfd*/ 
} 


} 

/* 如 何 索 引 epoll 返 回 的 就 绪 文 件 描述 符 */ 

int ret=epoll wait(epollfd,events,MAX_ EVENT_NUMBER, -1); 
/* 仅 遍历 就 绪 的 ret 个 文件 描述 符 */ 

for(int i=0;i<ret;i++) 

{ 

int sockfd=events[i].data.fd; 

/*Ssockfd 肯 定 就 绪 ， 直 接 处 理 */ 

} 


9.3.3 LT 和 ET 模式 


epol 对 文件 描述 符 的 操作 有 两 种 模式 : LT (Level Trigger， 电 平 
触发 ) 模式 和 ET (Edge Trigger， 边 沿 触发 ) 模式 。LI 模 式 是 默认 的 
工作 模式 ， 这 种 模式 下 epoll 相 当 于 一 个 效率 较 高 的 poll。 当 往 epoll 内 
核 事 件 表 中 注册 一 个 文件 描述 符 上 的 EPOLLET 事 件 时 ，epoll 将 以 ET 
模式 来 操作 该 文件 描述 符 。ET 模 式 是 epoll 的 高 效 工 作 模 式 。 


对 于 采用 LT 工作 模式 的 文件 描述 符 ， 当 epoll_wait 检 测 到 其 上 有 事 
件 发 生 并 将 此 事件 通知 应 用 程序 后 ， 应 用 程序 可 以 不 立即 处 理 该 事 
件 。 这 样 ， 当 应 用 程序 下 一 次 调用 epoll_wait 时 ，epolL_wait 还 会 再 次 向 
应 用 程序 通告 此 事件 ， 直 到 该 事件 被 处 理 。 而 对 于 采用 ET 工作 模式 的 
文件 描述 符 ， 当 epoll_wait 检 测 到 其 上 有 事件 发 生 并 将 此 事件 通知 应 用 
程序 后 ， 应 用 程序 必须 立即 处 理 该 事件 ， 因 为 后 续 的 epoll_wait 调 用 将 
不 再 同 应 用 程序 通知 这 一 事件 。 可 见 ，ET 模 式 在 很 大 程度 上 降低 了 同 
一 个 epoll 事 件 被 重复 触发 的 次 数 ， 因 此 效率 要 比 LT 模 式 高 。 代 码 清单 
9-3 体 现 了 LT 和 ET 在 工作 方式 上 的 差异 。 


代码 清单 9-3 LT 和 ET 模式 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 


#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#include<stdlib.h> 
#include<sys/epoll.h> 
#include<pthread.h> 

#define MAX_EVENT_NUMBER 1024 
#define BUFFER_SIZE 10 

/* 将 文件 描述 符 设 置 成 非 阻塞 的 */ 

int setnonblocking(int fd ) 

{ 

int old_option=fcntl(fd,F_GETFL); 
int new_option=old_option|O_NONBLOCK.; 
fcntli(fd,F_SETFL,new_option); 
return old_option; 


} 

/* 将 文件 描述 符 fd 上 的 EPOLLIN 注 册 到 epol1lfd 指 示 的 epol11 内 核 事 件 表 中 ， 参 数 
enable_et 指 定 是 否 对 fd 启用 ET 模式 */ 

void addfd(int epollfd,int fd,bool enable_et) 

{ 

epoll event event; 

event .data.fd=fd ， 

event .events=EPOLLIN; 

if(enable_et) 

{ 

event ,events |=EPOLLET ; 


epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 
setnonblocking(fd); 


} 
A/*LT 模 式 的 工作 流程 */ 
void lt(epoll event*events,int number,int epollfd,int listenfd) 


{ 
char buf[BUFFER_SIZE]; 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 

if(sockfd==listenfd) 

{ 

struct sockaddr_in client address; 

socklen _t client addrlength=sizeof(client_address); 

int connfd=accept(listenfd, (struct sockaddr*)&client_ address, 
&client_addrlength ) ， 

addfd(epollfd, connfd, false);/* 对 connfd 禁 用 ET 模式 */ 


else if(events[i].events&EPOLLIN) 
{ 


/* 只 要 socket 读 绥 存 中 还 有 林 读 出 的 数据 ， 这 段 代码 束 被 触发 */ 
printf("event trigger once\n"); 

memset (buf,'\0',BUFFER_ SIZE); 

int ret=recv(sockfd,buf,BUFFER_ SIZE-1,0); 
if(ret<=0) 


{ 
close(Sockfd ) ; 
continue; 


} 
printf("get%d bytes of content:%s\n",ret, buf); 


} 


else 


{ 


printf("something else happened\n"); 


} 
} 


} 
/*ET 模 式 的 工作 流程 */ 
void et(epoll event*events,int number,int epollfd,int listenfd) 


{ 
char buf[BUFFER_SIZE]; 
for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 

if(sockfd==listenfd) 

{ 

struct sockaddr_in client address; 

socklen _t client_addrlength=sizeof(client_address); 

int connfd=accept(listenfd, (struct sockaddr*)&client address,& 
client_addrlength); 

addfd(epollfd, connfd, true);/* 对 connfd 开 启 ET 模 式 */ 


else if(events[i].events&EPOLLIN) 


{ 

/* 这 上段 代码 不 会 被 重复 触发 ， 所 以 我 们 循环 读 取 数据 ， 以 确保 把 socket 读 缓存 中 的 所 
有 数据 读 出 */ 

printf("event trigger once\n"); 

while(1) 

{ 

memset (buf,'\0',BUFFER_ SIZE); 

int ret=recv(sockfd,buf,BUFFER_ SIZE-1,0); 

if(ret<0) 


{ 

/* 对 于 非 阻塞 IT0， 下 面 的 条 件 成 立 表 示 数 据 已 经 全 部 读 取 完 毕 。 此 后 ，epol11 就 能 再 次 
触发 sockfd 上 的 EPOLLIN 事 件 ， 以 驱动 下 一 次 读 操作 */ 

if((errno==EAGAIN)||(errno==EWOULDBLOCK)) 


{ 
printf("read later\n"); 


break; 


} 
close(Sockfd ) ; 
break; 


else if(ret==0) 


{ 
close(sockfd); 
} 


else 


{ 
printf("get%d bytes of content:%s\n",ret,buf); 
} 
} 
} 


else 


{ 
printf("something else happened\n"); 
} 
} 
} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 
bzero(&address, sizeof (address)); 
address.sin family=AF_INET; 
inet_pton(AF_INET, ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int epollfd=epoll create(5); 
assert(epollfd!=-1); 
addfd(epollfd,1istenfd,true); 

while(1) 

{ 


int ret=epoll wait(epollfd,events,MAX_ EVENT_NUMBER, -1); 
if(ret<0) 
{ 


printf("epoll failure\n"); 
break; 


} 
lt(events,ret,epollfd,1istenfd);/* 使 用 LT 模式 */ 
//et(events,ret,epollfd,1istenfd);/* 使 用 ET 模式 */ 


} 
close(listenfd); 
return 0O; 


} 


读者 不 妨 运 行 一 下 这 段 代码 ， 然 后 telnet 到 这 个 服务 器 程序 上 并 一 
次 传输 超过 10 字 市 (BUFFER_SIZE 的 大 小 ) 的 数据 ， 然 后 比较 LT 模式 
和 ET 模式 的 异同 。 你 会 发 现 ， 正 如 我 们 预期 的 ，ET 模 式 下 事件 被 触发 
的 次 数 要 比 LT 模 式 下 少 很 多 。 

注意 “每 个 使 用 ET 模式 的 文件 朱 述 符 都 应 该 是 非 阻塞 的 。 如 果 文 
件 描述 符 有 是 阻塞 的 ， 那 么 读 或 写 操 作 将 会 因为 没有 后 续 的 事件 而 一 直 
处 于 阻塞 状态 ( 饥 汤 状态 ) 


9.3.4 ” EPOLLONESHOT 事 件 


即使 我 们 使 用 ET 模式 ， 一 个 socket 上 的 某 个 事件 还 是 可 能 被 触发 
多 次 。 这 在 并 发 程序 中 就 会 引起 一 个 问题 。 比 如 一 个 线程 (或 进程 ， 
下 同 ) 在 读 取 完 某 个 socket 上 的 数据 后 开始 处 理 这 些 数 据 ， 而 在 数据 
的 处 理 过 程 中 该 socket 上 又 有 新 数据 可 读 (EPOLLIN 再 次 被 触发 ) ， 
此 时 另外 一 个 线程 被 唤醒 来 读 取 这 些 新 的 数据 。 于 是 就 出 现 了 两 个 线 


程 同 时 操作 一 个 socket 的 局 面 。 这 当然 不 是 我 们 期 望 的 。 我 们 期 望 的 
是 一 个 socket 连 接 在 任 一 时 刻 都 只 被 一 个 线程 处 理 。 这 一 点 可 以 使 用 
epoll 的 EPOLLONESHOT 事 件 实现 。 


对 于 注册 了 EPOLLONESHOT 事 件 的 文件 描述 符 ， 操 作 系统 最 多 
触发 其 上 注册 的 一 个 可 读 、 可 写 或 者 异常 事件 ， 且 只 触发 一 次 ， 除 非 
我 们 使 用 epoll_ctl 函 数 重 置 该 文件 搬 述 人 符 上 注册 的 EPOLLONESHOT 事 
件 。 这 样 ， 当 一 个 线程 在 处 理 某 个 socket 时 ， 其 他 线程 是 不 可 能 有 机 
会 操作 该 socket 的 。 但 反 过 来 思考 ,注册 了 EPOLLONESHOT 事 件 的 
socket 一 旦 被 某 个 线程 处 理 完 毕 ， 该 线程 就 应 该 立即 重 置 这 个 socket 上 
的 EPOLLONESHOT 事 件 ， 以 确保 这 个 socket 下 一 次 可 读 时 ， 其 
EPOLLIN 事 件 能 被 触发 ， 进 而 让 其 他 工作 线程 有 机 会 继续 处 理 这 个 


socket 。 


代码 清单 9-4 展 示 了 EPOLLONESHOT 事 件 的 使 用 。 


代码 清单 9-4 ”使 用 EPOLLONESHOT 事 件 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl1.h> 
#include<stdlib.h> 


#include<sys/epoll.h> 
#include<pthread.h> 

#define MAX_EVENT_NUMBER 1024 
#define BUFFER_SIZE 1024 
struct fds 


{ 

int epollfd; 

int sockfd; 

}; 

int setnonblocking(int fd) 

‘ 

int old_option=fcntl(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 

fcntli(fd,F_SETFL,new_option); 

return old_option; 

/* 将 fd 上 的 EPOLLIN 和 EPOLLET 事 件 注册 到 epol1lfd 指 示 的 epoll1 内 核 事 件 表 中 ， 参 
数 oneshot 指 定 是 否 注册 fd 上 的 EPOLLONESHOT 事 件 */ 

void addfd(int epollfd,int fd,bool oneshot) 

{ 

epoll event event; 

event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET; 

if(oneshot) 


{ 
event .events |=EPOLLONESHOT ; 


epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 

setnonblocking(fd); 

} 

/* 重 置 fd 上 的 事件 。 这 样 操作 之 后 ， 尽 管 fd 上 的 EPOLLONESHOT 事 件 被 注册 ， 但 是 操 
作 系统 仍然 会 触发 fd 上 的 EPOLLIN 事 件 ， 且 只 触发 一 次 */ 

void reset_oneshot (int RON ， int fd ) 

{ 

epoll event event; 

event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET|EPOLLONESHOT; 

epoll ctl(epollfd,EPOLL CTL_MOD, fd, &event); 

} 

/* 工 作 线 程 */ 


void*worker (void*arg) 


{ 

int sockfd=( (fds*)arg)->sockfd; 

int epollfd=((fds*)arg)-~>epollfd; 

printf("start new thread to receive data on fd:%d\n",sockfd); 
char buf[BUFFER_SIZE]; 

memset (buf,'\0',BUFFER_ SIZE); 

/循环 读 取 sockfd 上 的 数据 ， 直 到 遇 到 EAGAIN 错 误 */ 


while(1) 

{ 

int ret=recv(sockfd,buf,BUFFER_ SIZE-1,0); 
if(ret==0) 


{ 

close(sockfd); 

printf("foreiner closed the connection\n"); 
break; 


else if(ret<0) 

{ 

if(errno==EAGAIN) 

{ 
reset_oneshot(epollfd, sockfd); 
printf("read later\n"); 

break; 

} 

} 


else 


printf("get content:%s\n",buf); 
/休眠 5s， 模 拟 数据 处 理 过 程 */ 
Sleep(5) 

} 

} 


printf("end thread receiving data on fd:%d\n",sockfd); 


} 


int main(int argc,char*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 


epoll event events[MAX_ EVENT_NUMBER]; 
int epollfd=epoll create(5); 
assert(epollfd!=-1); 

/注意 ， 监 听 socket listenfd 上 是 不 能 注册 EPOLLONESHOT 事 件 的 ， 否 则 应 用 程 请 
处 理 一 个 客户 连接 ! 因为 后 续 的 客户 连接 请 求 将 不 再 触发 1istenfd 上 的 EPOLLIN 寻 


al 

el 
让 
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addfd(epollfd,1listenfd, false); 

while(1) 

{ 

Int ret=epoll wait(epollfd,events,MAX_ EVENT_NUMBER, -1); 
if(ret<0) 

4. 

printf("epoll failure\n"); 

break; 


} 


for(int i=0;i<ret;i++) 


int sockfd=events[i].data.fd; 

if(sockfd==listenfd) 

{ 

struct sockaddr_in client address; 

socklen _t client_addrlength=sizeof(client_address); 

int connfd=accept(listenfd, (struct sockaddr*)&client address,& 


client_addrlength); 


/* 对 每 个 非 监 听 文 件 描 述 符 都 注册 EPOLLONESHOT 事 件 */ 
addfd(epollfd,connfd, true); 


else if(events[i].events&EPOLLIN) 

{ 

pthread_t thread; 

fds fds_for_new worker; 

fds_for_new_ worker.epollfd=epollfd; 
fds_for_new_ worker.sockfd=sockfd; 
/* 新 启动 一 个 工作 线程 为 sSockfd 服 务 */ 
pthread_create(&thread, NULL,worker, (void*)&fds_ for_new worker); 
} 

else 

{ 

printf("something else happened\n"); 
} 

} 


} 
close(listenfd); 
return ©; 


} 


从 工作 线程 函数 worker 来 看 ， 如 果 一 个 工作 线程 处 理 完 某 个 socket 
上 的 一 次 请 求 (我 们 用 休眠 5 s 来 模拟 这 个 过 程 ) 之 后 ， 又 接收 到 该 
socket 上 新 的 客户 请 求 ， 则 该 线程 将 继续 为 这 个 socket 服 务 。 并 且 因 为 
该 socket 上 注册 了 EPOLLONESHOT 事 件 ， 其 他 线程 没有 机 会 接触 这 个 
socket， 如 果 工 作 线 程 等 待 5 s 后 仍然 没收 到 该 socket 上 的 下 一 批 客户 数 
据 ， 则 它 将 放弃 为 该 socket 服 务 。 同 时 ， 它 调用 reset_oneshot 函 数 来 重 
置 该 socket 上 的 注册 事件 ， 这 将 使 epoll 有 机 会 再 次 检测 到 该 socket 上 的 
EPOLLIN 事 件 ， 进 而 使 得 其 他 线程 有 机 会 为 该 socket 服 务 。 


由 此 看 来 ， 尽 管 一 个 socket 在 不 同时 间 可 能 被 不 同 的 线程 处 理 ， 
但 同一 时 刻 肯 定 只 有 一 个 线程 在 为 它 服 务 。 这 束 保 证 了 连接 的 完整 
性 ， 从 而 避免 了 很 多 可 能 的 况 态 条 件 。 


9.4 三 组 IO 复 用 画 数 的 比较 


前 面 我 们 讨论 了 select、poll 和 epoll 三 组 IO 复 用 系统 调用 ， 这 3 组 系 
统 调用 都 能 同时 监听 多 个 文件 描述 符 。 它 们 将 等 待 由 timeout 参 数 指定 
的 超时 时 间 ， 直 到 一 个 或 者 多 个 文件 描述 符 上 有 事件 发 生 时 返回 ， 返 
回 值 是 就 绪 的 文件 描述 符 的 数量 。 返 回 0 表示 没有 事件 发 生 。 现 在 我 们 
从 事件 集 、 最 大 支持 文件 描述 符 数 、 工 作 模 式 和 具体 实现 等 四 个 方面 
进一步 比较 它们 的 异同 ， 以 明确 在 实际 应 用 中 应 该 选择 使 用 哪个 (或 
哪些 ) 。 


这 3 组 函数 都 通过 某 种 结构 体 变量 来 告诉 内 核 监 听 哪 些 文件 描述 符 
上 的 哪些 事件 ， 并 使 用 该 结构 体 类 型 的 参数 来 获取 内 核 处 理 的 结果 。 
select 的 参数 类 型 fd_set 没 有 将 文件 朱 述 符 和 事件 绑 定 ， 它 仅仅 是 一 个 文 
件 描述 符 集 合 ， 因 此 select 需 要 提供 3 个 这 种 类 型 的 参数 来 分 别传 入 和 和 输 
出 可 读 、 可 写 及 异 间 等 事件 。 这 一 方面 使 得 select 不 能 处 理 更 多 类 型 的 
事件 ， 另 一 方面 由 于 内 核对 fd_set 集 合 的 在 线 修改 ， 应 用 程序 下 次 调用 
select 前 不 得 不 重 置 这 3 个 fd_set 集 合 。poll 时 参数 类 型 pollfd 则 多 少 “ 聪 
明 ” 一 些 。 它 把 文件 搬 述 循 和 事件 都 定义 其 中 ， 任 何事 件 都 被 统一 处 
理 ， 从 而 使 得 编程 接口 和 商洛 得 多 。 并 且 内 核 每 次 修改 的 是 pollfd 结 构 体 
的 revents 成 员 ， 而 events 成 员 保持 不 变 ， 因 此 下 次 调用 poll 时 应 用 程序 
无 须 重 置 pollfd 类 型 的 事件 集 参 数 。 由 于 每 次 select 和 pol 调 用 都 返回 整 


个 用 户 注册 的 事件 集合 〈 其 中 包括 就 绪 的 和 未 就 绪 的 ) ， 所 以 应 用 程 

序 索引 就 绪 文 件 描述 符 的 时 间 复 杂 度 为 0 (n) 。epoll 则 采用 与 select 和 
poll 完 全 不 同 的 方式 来 管理 用 户 注册 的 事件 。 它 在 内 核 中 维护 一 个 事件 
表 ， 并 提供 了 一 个 独立 的 系统 调用 epoll_ctl 来 控制 往 其 中 添加 、 删 除 、 

修改 事件 。 这 样 ， 每 次 epoll_wait 调 用 都 直接 从 该 内 核 事 件 表 中 取得 用 

户 注册 的 事件 ， 而 无 须 反 复 从 用 户 空 间 读 入 这 些 事件 。epoll_wait 系 统 
调用 的 events 参 数 仅 用 来 返回 就 绪 的 事件 ， 这 使 得 应 用 程序 索引 束 绪 文 
件 描述 符 的 时 间 复 杂 度 达到 O (1) 。 


poll 和 epoll_wait 分 别 用 nfds 和 maxevents 参 数 指定 最 多 监听 多 少 个 文 
件 描述 符 和 事件 。 这 两 个 数值 都 能 达到 系统 允许 打开 的 最 大 文件 描述 
符 数目 ， 即 65 535 (cat/proc/sys/fs/file-max) 。 而 select 允 许 监听 的 最 大 
文件 描述 符 数 量 通常 有 限制 。 虽 然 用 户 可 以 修改 这 个 限制 ， 但 这 可 能 
导致 不 可 预期 的 后 果 。 


select 和 poll 都 只 能 工作 在 相对 低 效 的 LT 模式 ， 而 epoll 则 可 以 工作 
在 ET 高 效 模式 。 并 且 epoll 还 支持 EPOLLONESHOT 事 件 。 该 事件 能 进 
一 步 减少 可 读 、 可 写 和 异常 等 事件 被 触发 的 次 数 。 


从 实现 原理 上 来 说 ，select 和 poll 采 用 的 都 是 轮 询 的 方式 ， 即 每 次 调 
用 都 要 扫描 整个 注册 文件 摘 述 符 集 合 ， 并 将 其 中 束 绪 的 文件 摘 述 符 返 
回 给 用 户 程序 ， 因 此 它们 检测 就 绪 事 件 的 算法 的 时 间 复 杂 度 是 O 
(n) 。epoll_wait 则 不 同 ， 它 采用 的 是 回调 的 方式 。 内 核 检 测 到 就 绪 的 


文件 插 述 循 时 ， 将 触发 回调 函数 ， 回 调 函 数 束 将 该 文件 搬 述 人 特 上 对 应 
的 事件 插入 内 核 束 绪 事件 队列 。 内 核 最 后 在 适当 的 时 机 将 该 束 绪 事件 
队列 中 的 内 容 找 贝 到 用 户 空间 。 因 此 epoll_wait 无 须 轮 询 整 个 文件 描述 


符 集合 来 检测 哪些 事件 已 经 就 绪 ， 其 算法 时 间 复 杂 度 是 O (1) 


SM 


是 ， 当 活动 连接 比较 多 的 时 候 ，epoll_wait 的 效率 未 必 比 select 和 poll 
高 ， 因 为 此 时 回调 函数 被 触发 得 过 于 频繁 。 所 以 epoll_wait 适 用 于 连接 


数量 多 ， 但 活动 连接 较 少 的 情况 。 


最 后 ， 为 了 便于 阅读 ， 我 们 将 这 3 组 IO 复 用 系统 调用 的 区 别 总 结 于 


表 9-2 中 。 


表 9-2 select、poll 和 epoll 的 区 别 


系统 调用 
用 户 通 过 3 个 参数 分 别传 
入 感 兴趣 的 可 读 、 可 写 及 异 
常 等 事件 ， 内 核 通过 对 这 些 
参数 的 在 线 修改 来 反馈 其 中 
的 就 绪 事件 。 这 使 得 用 户 每 
次 调用 select 都 要 重 置 这 3 


事件 集合 


统一 处 理 所 有 事件 类 型 ， 
因此 只 需 一 个 事件 集 参 数 。 
用 户 通过 pollfd.events 传人 
感 兴趣 的 事件 ， 内 核 通过 
修改 pollfd.revents 反馈 其 


中 就 绪 的 事件 


epoll 
内 核 通 过 一 个 事件 表 直 
接管 理 用 户 感 兴趣 的 所 有 
事件 。 因 此 每 次 调用 epoll_ 
wait 时 ， 无 须 反 复 传人 用 户 
感 兴趣 的 事件 。epoll_wait 
系统 调用 的 参数 events 仅 用 


个 参数 来 反馈 就 绪 的 事件 
应 用 程序 索引 就 绪 文件 
O O Of(1 
描述 符 的 时 间 复杂 度 au a 
最 大 支持 文件 描述 符 数 | 一 般 有 最 大 值 限制 65 535 65 535 


[ 作 模 式 

采用 轮 询 方式 来 检测 就 绪 
事件 ， 算 法 时 间 复 杂 度 为 
O(n) 


内 核实 现 和 工作 效率 


采用 轮 询 方式 来 检测 就 
绪 事件 ， 算 法 时 间 复 杂 度 
为 O(n) 


支持 ET 高 效 模式 

采用 回调 方式 来 检测 就 绪 
事件 ， 算 法 时 间 复 杂 度 为 
0O(1) 


9.5 IO 复 用 的 高 级 应 用 一 : 非 阻 塞 connect 


connect 系 统 调 用 的 man 手 册 中 有 如 下 一 段 内 容 : 


EINPROGRESS 

The socket is nonblocking and the connection cannot be completed 
immediately,It is possible to select(2)or poll(2)for completion by 
selecting the socket for writing.After select(2)indicates 
writability,use getsockopt(2)to read the SO_ERROR option at level 
SOL_SOCKET to determine whether connect( )compJleted 
successfully(SO_ERROR is zero)or unsuccessfully(SO_ERROR is one of 
the usual error codes listed here,explaining the reason for the 
failure). 


这 上段 话 描述 了 connect 出 错时 的 一 种 errmmo 值 ，EINPROGRESS。 这 
种 错误 发 生 在 对 非 阻 塞 的 socket 调 用 connect， 而 连接 又 没有 立即 建立 
时 。 根 据 man 文 档 的 解释 ， 在 这 种 情况 下 ， 我 们 可 以 调用 select、poll 
等 函数 来 监听 这 个 连接 失败 的 socket 上 的 可 写 事件 。 当 select、poll 等 画 
数 返 回 后 ， 再 利用 getsockopt 来 读 取 错 误 码 并 清除 该 socket 上 的 错误 。 
如 宋 错 误 码 是 0， 表 示 连 接 成 功 建立 ， 否 则 连接 失败 。 


通过 上 面 描述 的 非 阻 塞 connect 方 式 ， 我 们 束 能 同时 发 起 多 个 连接 
并 一 起 等 待 。 下 面 看 看 非 阻塞 connect 的 一 种 实现 P] ， 如 代码 清单 9-5 
所 示 。 


代码 清单 9-5” 非 阻塞 connect 


#include< sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 

#include< stdlib.h> 
#include<assert.h> 
#include<stdio.h> 
#include<time.h> 
#include<errno.h> 
#include<fcntl.h> 
#include<sys/ioctl1.h> 
#include<unistd.h> 
#include<string.h> 

#define BUFFER_SIZE 1023 

int setnonblocking(int fd ) 

{ 

int old_option=fcntl(fd,F_GETFL); 
int new_option=old_option|O_NONBLOCK.; 
fcntli(fd,F_SETFL,new_option); 
return old_option; 


} 

/* 超 时 连接 函数 ， 参 数 分 别 是 服务 器 IP 地 址 、 端 口号 和 超时 时 间 (毫秒 ) 。 画 数 成 功 时 
回 已 经 处 于 连接 状态 的 socket， 失 败 则 返回 -1*/ 

int unblock_connect(const char*ip,int port,int time) 

{ 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sockfd=socket(PF_INET,SOCK_ STREAM, 0); 

int fdopt=setnonblocking(sockfd); 

ret=connect(sockfd, (struct sockaddr*)&Saddress,sizeof(address)); 

if(ret==0) 


岗 


{ 

/* 如 果 连 接 成 功 ， 则 恢复 sockfd 的 属性 ， 并 立即 返回 之 */ 
printf("connect with server immediately\n"); 
fcntl(sockfd,F_SETFL, fdopt); 

return sockfd; 


pm 
过 


else if(errno!=EINPROGRESS) 


{ 

/x* 如 果 连 接 没有 立即 建立 ， 那 么 只 有 当 errno 是 EINPROGRESS 时 才 表 示 连 接 还 在 进 
行 ， 否 则 出 错 返 回 */ 

printf("unblock connect not support\n"); 

return-1; 


} 


fd_set readfds,; 

fd_set writefds,; 

struct timeval timeout; 

FD_ZERO(Screadfds ) ; 

FD_SET(sockfd, &cwritefds ) 

timeout .tv_sec=time ， 

timeout.tv_usec=0; 
ret=select(sockfd+1, NULL, writefds, NULL, Stimeout ) ， 
if(ret<=0) 


{ 

/*select 超 时 或 者 出 错 ， 立 即 返回 */ 
printf("connection time out\n"); 
close(Sockfd ) ; 

return-1; 


if(!FD_ISSET(sockfd, &writefds)) 

{ 

printf("no events on sockfd found\n"); 

close(sockfd); 

return-1; 

} 

int error=0; 

socklen t length=sizeof(error); 

/* 调 用 getsockopt 来 获取 并 清除 sockfd 上 的 错误 */ 

if(getsockopt(sockfd,SOL_ SOCKET,SO_ERROR, &error, length)<0) 

{ 

printf("get socket option failed\n"); 

close(Sockfd ) ; 

return-1; 

} 

/* 错 误 号 不 为 6 表示 连接 出 欠 

if(error!=0) 

{ 

printf("connection failed after select with the 
error:%d\n",error); 

close(sockfd); 

return-1; 


} 

/* 连 接 成 功 */ 

printf("connection ready after select with the 
socket:%d\n", sockfd); 

fcntl(sockfd,F_SETFL, fdopt); 

return sockfd; 


} 


int main(int argc,char*argv[]) 


IE 


4 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int sockfd=unblock_connect(ip,port, 10); 
if(sockfd<0) 

{ 


return 1; 


} 
close(sockfd); 
return ©; 


} 


但 遗憾 的 是 ， 这 种 方法 存在 几 处 移植 性 问题 。 首 移 ， 非 阻塞 的 
socket 可 能 导致 connect 始 终 失 败 。 其 次 ，select 对 处 于 EINPROGRESS 
状态 下 的 socket 可 能 不 起 作用 。 最 后 ， 对 于 出 错 的 socket，getsockopt 在 
有 些 系统 (比如 Linux) 上 返回 -1 〈 正 如 代码 清单 9-5 所 期 望 的 ) ， 而 
在 有 些 系统 (比如 源 自 伯克利 的 UNIX) 上 则 返回 0。 这 些 问 题 没 有 一 
个 统一 的 解决 方法 ， 感 兴趣 的 读者 可 目 行 参考 相关 文献 。 


9.6 JIO 复 用 的 高 级 应 用 二 : 聊天 室 程 序 


像 ssh 这 样 的 登录 服务 通常 要 同时 人 处理 网 络 连 接 和 用 户 输入 ， 这 也 
可 以 使 用 VO 复 用 来 实现 。 本 市 我 们 以 poll 为 例 实现 一 个 简单 的 聊天 室 
程序 ， 以 阐述 如 何 使 用 WO 复 用 技术 来 同时 处 理 网 络 连 接 和 用 户 输入 。 
该 聊天 室 程序 能 让 所 有 用 户 同时 在 线 群 聊 ， 它 分 为 客户 端 和 服务 器 两 
个 部 分 。 其 中 客户 端 程序 有 两 个 功能 : 一 是 从 标准 输入 终端 读 入 用 户 
数据 ， 并 将 用 户 数据 发 送 至 服务 器 ;二 是 往 标 准 输出 终端 打印 服务 器 
发 送 给 它 的 数据 。 服 务 器 的 功能 是 接收 客户 数据 ， 并 把 客户 数据 发 送 
给 每 一 个 登录 到 该 服务 器 上 的 客户 端 (数据 发 送 者 除外 ) 。 下 面 我 们 
依次 给 出 客户 端 程序 和 服务 器 程序 的 代码 。 


9.6.1 客户 端 


客户 端 程序 使 用 poll 同 时 监听 用 户 输入 和 网 络 连 接 ， 并 利用 splice 
函数 将 用 户 输入 内 容 直 接 定 向 到 网 络 连 接 上 以 发 送 之 ， 从 而 实现 数据 
零 拷 贝 ， 提 高 了 程序 执行 效率 。 客 户 端 程序 如 代码 清单 9-6 所 示 。 


代码 清单 9-6 ”聊天 室 客 户 端 程序 


#define_GNU_SOURCE 1 
#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 


#include<arpa/inet.h> 
#include<assert.h> 

#include< stdio.h> 
#include<unistd.h> 
#include<string.h> 
#include<stdlib.h> 
#include<poll.h> 
#include<fcntl.h> 

#define BUFFER_SIZE 64 

int main(int argc,char*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in server_address; 

bzero(&server_address, sizeof(server_address)); 

server_address.sin family=AF_INET; 

inet_pton(AF_INET,ip,server_address.sin addr); 

server_address.sin port=htons(port); 

int sockfd=socket(PF_INET,SOCK_ STREAM, 0); 

assert(sockfd>=0); 

if(connect(sockfd, (struct sockaddr*)& 
server_address, sizeof(server_address))<0) 

{ 

printf("connection failed\n"); 

close(Sockfd ) ; 

return 1; 


} 

pollfd fds[2]; 

/注册 文件 描述 符 9 (标准 输入 ) 和 文件 描述 符 sockfd 上 的 可 读 二 
fds[0].fd=0; 

fds[0] .events=POLLIN; 
fds[0].revents=0; 
fds[1].fd=sockfd; 
fds[1].events=POLLIN|POLLRDHUP; 
fds[1].revents=0; 

char read_ buf[BUFFER_SIZE]; 

int pipefd[2]; 

int ret=pipe(pipefd); 
assert(ret!=-1); 

while(1) 


件 */ 


地 


{ 
ret=poll(fds,2, -1); 
if(ret<0) 


{ 
printf("poll failure\n"); 
break; 


if(fds[1].revents&POLLRDHUP) 


printf("server close the connection\n"); 
break; 


else if(fds[1].revents&POLLIN) 

{ 

memset(read_ buf,'\0',BUFFER_ SIZE); 
recv(fds[1].fd,read_ buf,BUFFER_ SIZE-1.,0); 
printf("%s\n",read_ buf); 


if(fds[0].revents&POLLIN) 

{ , 

/* 使 用 splice 将 用 户 输入 的 数据 直接 写 到 sockfd 上 〈 零 拷贝 ) */ 

ret=splice(0,NULL,pipefd[1],NULL,32768,SPLICE_ F_MORE|SPLICE F_MO 
VE); 

ret=splice(pipefd[0],NULL, sockfd, NULL, 32768, SPLICE_F_MORE|SPLICE 
_F_MOVE); 

} 


} 
close(sockfd); 
return 0; 


} 


9.6.2 ”服务 硕 


服务 器 程序 使 用 poll 同 时 管理 监听 socket 和 连接 socket， 并 且 使 用 
牺牲 空间 换取 时 间 的 策略 来 提高 服务 器 性 能 ， 如 代码 清单 9-7 所 示 。 


代码 清单 9-7 聊天 室 服 务 絮 程序 


#define_GNU_SOURCE 1 

#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 


*/ 


#include<arpa/inet.h> 
#include<assert.h> 

#include<stdio.h> 

#include<unistd.h> 

#include<errno.h> 

#include<string.h> 

#include<fcntl1.h> 

#include<stdlib.h> 

#include<poll.h> 

#define USER_LIMIT 5/* 最 大 用 户 数量 */ 
#define BUFFER_SIZE 64/* 读 缓冲 区 的 大 小 */ 
#define FD_LIMIT 65535/* 文 件 描 述 符 数 量 限 制 */ 
/* 客 户 数 据 : 客户 端 socket 地 址 、 竺 写 到 客户 端的 数据 的 位 置 、 从 客户 端 读 入 的 数 


I 


struct client_data 


sockaddr_in address,; 

char*write_buf; 

char buf[BUFFER_SIZE]; 

}; 

int setnonblocking(int fd) 

{ 

int old_option=fcntl(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 
fcntili(fd,F_SETFL,new_option); 

return old_option; 


} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 


/ 


/x* 创 建 users 数 组 


》 刀 


FD_LIMIT 个 client_data 对 象 。 可 LD 


预期 : 每 个 可 能 的 


+ 


socket 连 接 都 可 以 获得 一 个 这 样 的 对 象 ， 并 且 socket 的 值 可 以 


下 标 ) socket 连 接 对 应 的 cLlient_data 对 象 ， 这 是 将 socket 和 客户 数据 关联 的 简单 而 高 


效 的 方式 */ 


限制 用 户 的 数量 */ 


接 


来 索引 (作为 数组 的 


client_data*users=new client_data[FD_LIMIT]; 


/* 尽 管 我 们 分 配 了 足够 多 的 client_data 对 象 ， 但 为 了 提高 po11 的 性 能 ， 仍 然 有 必要 


pollfd fds[USER_LIMIT+1]; 
int user_counter=0; 
for(int i=1;i<=USER_ LIMIT;++i) 


{ 
fds[i] .fd=-1; 


fds[i].events=0; 


fds[0] .fd=listenfd; 
fds[0] .events=POLLIN|POLLERR; 
fds[0].revents=0; 


while(1) 
{ 


ret=poll(fds,user_counter+1, -1); 


if(ret<0) 


{ 
printf("poll failure\n"); 


break; 


} 


for(int i=0;i<Uuser_counter+1;++i) 


{ 
if((fds[i].fd==listenfd)&&(fds[i].revents&POLLIN)) 


struct sockaddr_in client address; 
socklen _t client addrlength=sizeof(client_address); 
int connfd=accept(listenfd, (struct sockaddr*)&client address,& 


client_addrlength); 
if(connfd<0) 
{ 


printf("errno is:%d\n",errno); 


continue; 


} 
/* 如 果 请 求 太 多 ， 则 关闭 新 到 的 连接 */ 
if(user_counter>=USER_LIMIT) 


{ 


const char*info="too many UserSsxn'" ; 
printf("%s",info); 
send(connfd, info, strlen(info),o0); 


close(connfd ) ; 
continue; 


} 


/对 于 新 的 连接 ， 同 时 修改 fds 和 users 数 组 。 前 文 已 经 提 到 ，users[connfd] 对 应 
于 新 连接 文件 描述 符 connfd 的 客户 数据 */ 

USer_counter++， 

users[connfd].address=client_address; 

setnonblocking(connfd); 

fds[user_counter].fd=connfd; 

fds[user_counter].events=POLLIN|POLLRDHUP|POLLERR; 

fds[user_counter].revents=0; 

printf("comes a new user,now have%d users\n",user_counter); 


else if(fds[i].revents&POLLERR) 

{ 

printf("get an error from%d\n",fds[i].fd); 

char errors[100]; 

memset(errors,'\0',100); 

socklen t length=sizeof(errors); 
if(getsockopt(fds[i].fd,SoOL SOCKET,SO_ERROR, Serrors, 
length)<0) 


printf("get socket option failed\n"); 
} 


continue; 
else if(fds[i].revents&POLLRDHUP) 


{ 

/* 如 果 客 户 端 关闭 连接 ， 则 服务 器 也 关闭 对 应 的 连接 ， 并 将 用 户 总 数 减 1*/ 
users[fds[i].fd]=users[fds[user_counter].fd]; 
close(fds[i].fd); 

fds[i]=fds[user_counter]; 

1--, 

user_counter--; 

printf("a client left\n"); 


else if(fds[i].revents&POLLIN) 


{ 

int connfd=fds[i].fd; 

memset(users[connfd].buf,'\0',BUFFER_ SIZE); 

ret=recv(connfd,users[connfd].buf,BUFFER_SIZE-1,0); 

printf("get%d bytes of client data%s 
from%d\n",ret,users[connfd].buf,connfd); 

if(ret<0) 


{ 

/* 如 果 读 操作 出 错 ， 则 关闭 连接 */ 

if(errno!=EAGAIN) 

{ 

close(connfd); 
users[fds[i].fd]=users[fds[user_counter].fd]; 
fds[i]=fds[user_counter]; 


i--; 
user_counter--; 
} 

} 

else if(ret==0) 
{ 

} 


else 


{ 
/* 如 果 接 收 到 客户 数据 ， 则 通知 其 他 socket 连 接 准 备 写 数据 */ 
for(int j=1;j<=user_counter;++j) 


{ 
if(fds[j].fd==connfd) 
{ 


continue; 

} 

fds[j].events|=~POLLIN; 
fds[j].events|=POLLOUT; 
users[fds[j].fd].write buf=users[connfd].buf; 
} 

} 


else if(fds[i].revents&POLLOUT) 

{ 

int connfd=fds[i].fd; 

if(!users[connfd] .write_buf) 

{ 。 

continue 

} 

ret=send(connfd,users[connfd] .write _ buf,strlen(users[connfd] .wri 
te_buf),0); 

users[connfd] .write_buf=NULL; 

/* 写 完 数据 后 需要 重新 注册 fds[i] 上 的 可 读 事件 */ 

fds[i].events|=~POLLOUT; 

fds[i].events|=POLLIN; 

} 

} 

} 


delete[ lusers; 
close(listenfd); 
return 0; 


} 


9.7 IO 复 用 的 高 级 应 用 三 : 同时 处 理 TCP 和 UDP 


服务 


至 此 ， 我 们 讨论 过 的 服务 恬 程 序 都 只 监听 一 个 端口 。 在 实际 应 用 
中 ， 有 不 少 服务 器 程序 能 同时 监 昕 多 个 端口 ， 比 如 超级 服务 inetd 和 
android 的 调试 服务 adbd 。 


从 bind 系 统 调用 的 参数 来 看 ， 一 个 socket 只 能 与 一 个 socket 地 址 绑 
定 ， 即 一 个 socket 只 能 用 来 监听 一 个 端口 。 因 此 ， 服 务 器 如 果 要 同时 
监听 多 个 端口 ， 就 必须 创建 多 个 socket， 并 将 它们 分 别 绑 定 到 各 个 端 
口上 。 这 样 一 来 ， 服 务 器 程序 就 需要 同时 管理 多 个 监听 socket，LIO 复 
用 技术 就 有 了 用 武之 地 。 另 外 ， 即 使 是 同一 个 端口 ， 如 果 服 务 器 要 同 
时 处 理 该 端口 上 的 TCP 和 UDP 请 求 ， 则 也 需要 创建 两 个 不 同 的 socket: 
一 个 是 流 socket， 另 一 个 是 数据 报 socket， 并 将 它们 都 绑 定 到 该 端口 
上 。 比 如 代码 清单 9-8 所 示 的 回 射 服务 器 就 能 同时 处 理 一 个 端口 上 的 
TCP 和 UDP 请 求 。 


代码 清单 9-8 ”同时 处 理 TCP 请 求 和 UDP 请 求 的 回 射 服务 如 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 


#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 

#include< stdlib.h> 
#include<sys/epoll.h> 
#include<pthread.h> 

#define MAX_EVENT_NUMBER 1024 
#define TCP_BUFFER_ SIZE 512 
#define UDP_BUFFER_ SIZE 1024 

int setnonblocking(int fd) 

{ 

int old_option=fcntl1l(fd,F_GETFL); 
int new_option=old_option|O_NONBLOCK; 
fcntili(fd,F_SETFL,new_option); 
return old_option; 


} 

void addfd(int epollfd,int fd) 

{ 

epoll event event; 

event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET; 

epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 
setnonblocking(fd); 

} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address ) ) ; 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

/* 创 建 TCP socket， 并 将 其 绑 定 到 端口 port 上 *V 

int 1Listenfd=socket(PF_INET,SOCK_STREAM,0) ， 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 


/* 创 建 UDP socket， 并 将 其 绑 定 到 端口 port 上 */ 
bzero(&address, sizeof (address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int udpfd=socket(PF_INET,SOCK_DGRAM,0); 

assert(udpfd>=0); 

ret=bind(udpfd, (struct sockaddr*)&Saddress,sizeof(address)); 
assert(ret!=-1); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int epollfd=epoll create(5); 
assert(epollfd!=-1); 

/* 注 册 TCP socket 和 UDP socket 上 的 可 读 引 
addfd(epollfd,1istenfd); 
addfd(epollfd, udpfd); 

while(1) 

{ 

int number=epoll] wait(epollfd,events,MAX_EVENT_NUMBER, -1); 
if(number<0) 


件 */ 


册 


printf("epoll failure\n"); 
break; 


} 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 

if(sockfd==listenfd) 

{ 

struct sockaddr_in client address; 

socklen _t client_addrlength=sizeof(client_address); 
int connfd=accept(listenfd, (Struct sockaddr*) 
Kclient address, &client addrlength); 
addfd(epollfd,connfd); 


} 
else if(sockfd==udpfd) 


{ 

char buf[UDP_BUFFER_SIZE]; 

memset (buf,'\0',UDP_BUFFER_ SIZE); 

struct sockaddr_in client address; 

socklen _t client addrlength=sizeof(client_address); 
ret=recvfrom(udpfd, buf, UDP_BUFFER_SIZE-1,0, 

(struct sockaddr*)&client address, &client _ addrlength); 
if(ret>0) 

{ 

sendto(udpfd, buf, UDP_BUFFER_SIZE-1,0, 

(struct sockaddr*)&client address,client addrlength); 
} 

} 


else if(events[i].events&EPOLLIN) 
{ 

char buf[TCP_BUFFER_SIZE]; 
while(1) 


memset(buf,'\0',TCP_BUFFER_ SIZE); 
ret=recv(sockfd, buf,TCP_BUFFER_SIZE-1,0); 
if(ret<0) 


if((errno==EAGAIN)||(errno==EWOULDBLOCK)) 
€ 


break; 


} 
close(Sockfd ) ; 
break; 


else if(ret==0) 
{ 
close(sockfd); 


} 


else 


{ 
send(sockfd, buf, ret, 0); 
} 
} 
} 


else 


{ 
printf("something else happened\n"); 
} 
} 


} 
close(listenfd); 


return 0; 


} 


9.8 超级 服务 xinetd 


Linux 因 特 网 服务 inetd 是 超级 服务 。 它 同时 管理 看 多 个 了 于 服务 ， 即 
监听 多 个 端口 。 现 在 Linux 系 统 上 使 用 的 inetd 服 务 程序 通常 是 其 升级 版 
本 xinetd。xinetd 程 序 的 原理 与 inetd 相 同 ， 但 增加 了 一 些 控制 选项 ， 并 
提高 了 安全 性 。 下 面 我 们 从 配置 文件 和 工作 流程 两 个 方面 对 xinetd 进 行 
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9.8.1 ”xinetd 配 置 文件 


Xinetd 采 用 /etc/xinetd.conf 主 配置 文件 和 /etc/xinetd.d 目 孙 下 的 子 配置 
文件 来 管理 所 有 服务 。 主 配置 文件 包含 的 是 通用 选项 ， 这 些 选 项 将 被 
所 有 子 配置 文件 继承 。 不 过 子 配 置 文件 可 以 覆盖 这 些 选 项 。 每 一 个 子 
配置 文件 用 于 设置 一 个 子 服务 的 参数 。 比 如 ，telnet 于 服务 的 配置 文 
件 /etc/xinetd.d/telnet 的 典型 内 容 如 下 : 


1#default:on 

2#description:The telnet Server serves telnet sessions;it uses\ 
3#unencrypted username/password pairs for authentication. 
4 service telnet 

5S{ 

6 flags=REUSE 

7 socket_type=stream 

8 wait=no 

9 user=root 

10 server=/usr/sbin/in.telnetd 

11 log_on_failure+=USERID 

12 disable=no 


13} 


/etc/xinetd. d/telnet 文 件 中 的 每 一 项 的 含义 如 表 9-3 所 示 。 


表 9-3 /etc/xinetd.d/telnet 文件 的 项 目 及 其 含义 


项 目 含 义 

service 服务 名 

i 设置 连接 的 标志 。REUSE 表示 复 用 telnet 连接 的 socket。 该 标志 已 经 过 时 ， 每 个 连接 都 默认 
启用 REUSE 标志 

Socket type 服务 类 型 

服务 采用 单线 程 方式 (wait=yes) 还 是 多 线程 方式 (wait=no)。 单 线程 方式 表示 xinetd 只 

wait accept 第 一 次 连接 ， 此 后 将 由 子 服务 进程 来 accept 新 连接 。 多 线程 方式 表示 xinetd 一 直 负 责 
accept 连接 ， 而 子 服务 进程 仅 处 理 连 接 socket 上 的 数据 读 写 

user 子 服 务 进 程 将 以 user 指定 的 用 户 身份 运行 

server 子 服务 程序 的 完整 路 径 

log_on failure 定义 当 服务 不 能 启动 时 输出 日 志 的 参数 

disable 是 否 启动 该 子 服务 


xinetd 配 置 文件 的 内 容 相当 丰 宇 ， 远 不 止 上 面 这 些 。 读 者 可 参考 其 
man 文 档 来 获得 更 多 信息 。 


9.8.2 ”xinetd 工 作 流 程 


xinetd 管 理 的 子 服务 中 有 的 是 标准 服务 ， 比 如 时 间 日 期 服务 
daytime、 回 射 服务 echo 和 丢弃 服务 discard。xinetd 服 务 器 在 内 部 直接 处 
理 这些 服 务 。 还 有 的 子 服务 则 需要 调用 外 部 的 服务 器 程序 来 处 理 。 
xinetd 通 过 调用 fork 和 exec 函 数 来 加 载运 行 这 些 服务 器 程序 。 比 如 
telnet、ftp 服 务 都 是 这 种 类 型 的 子 服务 。 我 们 仍 以 telnet 服 务 为 例 来 探讨 
xinetd 的 工作 流程 。 


首先 ， 查 看 xinetd 守 护 进程 的 PID (下 面 的 操作 都 在 测试 机 器 
Kongming20 上 执行 ) 


$cat/var/run/xinetd.pid 
9543 


然后 开局 两 个 终端 并 分 别 使 用 如 下 命令 telnet 到 本 机 .: 


$telnet 192.168.1.109 


接 下 来 使 用 ps 命令 查看 与 进程 9543 相 关 的 进程 : 


$ps-eo pid,ppid,pgid, sid,comm|grep 9543 
PID PPID PGID SESS COMMAND 

9543 1 9543 9543 xinetd 

9810 9543 9810 9810 in.telnetd 

10355 9543 10355 10355 in.telnetd 


由 此 可 见 ， 我 们 每 次 使 用 telnet 登 录 到 xinetd 服 务 ， 它 都 创建 一 个 子 
进程 来 为 该 telnet 客 户 服务 。 子 进程 运行 in.telnetd 程 序 ， 这 是 
在 /etc/xinetd.d/telnet 配 置 文 件 中 定义 的 。 每 个 子 进程 都 处 于 自己 独立 的 
进程 组 和 会 话 中 。 我 们 可 以 使 用 lsof 命 令 ( 见 第 17 章 ) 进一步 查看 子 进 
程 都 打开 了 哪些 文件 描述 符 : 


$sudo lsof-p 9810# 以 子 进 程 9810 为 例 

in,telnet 9810 root Ou IPv4 48189 OtQ© TCP Kongming20:telnet-> 
Kongming20:38763(ESTABLISHED) 

in.telnet 9810 root 1u IPv4 48189 QOtQO TCP Kongming20:telnet-> 
Kongming20. :38763 (ESTABLISHED) 

in.telnet 9810 root 2u IPv4 48189 QOtQO TCP Kongming20:telnet-> 
Kongming20:38763(ESTABLISHED) 


这 里 省 略 了 一 些 无 关 的 输出 。 通 过 lsof 的 输出 我 们 知道 ， 子 进程 
9810 关 闭 了 其 标准 输入 、 标 准 输 出 和 标准 错误 ， 而 将 socket 文 件 插 述 符 
dup 到 它们 上 面 。 因 此 ，telnet 服 务 句 程序 将 网 络 连接 上 的 输入 当 作 标准 
输入 ， 并 把 标准 输出 定向 到 同一 个 网 络 连 接 上 。 


再 进一步 ， 对 xinetd 进 程 使 用 lsof 命 令 : 


$sudo lsof-p 9543 
xinetd 9543 root Su IPV6 47265 OtQ© TCP*:telnet(LISTEN) 


这 一 条 输出 说 明 xinetd 将 一 直 监 听 telnet 连 接 请 求 ， 因 此 in.telnetd 子 
进程 只 处 理 连 接 socket， 而 不 处 理 监听 socket。 这 是 子 配 置 文件 中 的 wait 
参数 所 定义 的 行为 。 


对 于 内 部 标准 服务 ，xinetd 的 处 理 流程 也 可 以 用 上 述 方法 来 分 析 ， 
这 里 不 再 费 述 。 


综合 上 面 讨论 的 ， 我 们 将 xinetd 的 工作 流程 wait 选项 的 值 是 no 的 
情况 ) 绘制 为 图 9-1 所 示 的 形式 。 


对 于 /etc/xinetd.d 目 录 下 


的 每 个 被 使 能 的 服务 ， 分 
别 创建 一 个 socket 并 线 定 


nstent) 到 特定 端口 
(如 果 是 TCP 服 务 ) 


accept() 
(如 果 是 TCP 服 务 ) 


ee 


关闭 accept 返 回 的 关闭 文件 描述 符 
socket (如 果 是 TCP 0、1 和 2 
服务 ) . 
外 部 服务 标准 服务 
将 stocket dup 到 文 
件 描述 符 0、1 和 2 上 ， 服务 也 数 
然后 关闭 socket 
setgid() 
setuid() 
setsid() 


exec() 
调用 子 服务 程序 


图 9-1 xinetd 的 工作 流程 


了 


第 10 章 号 


信号 是 由 用 户 、 系 统 或 者 进程 发 送 给 目标 进程 的 信息 ， 以 通知 目 
标 进 程 某 个 状态 的 改变 或 系统 异 肖 。Linux 信 和 号 可 由 如 下 条 件 产生 : 


口 对 于 前 合 进程， 用 户 可 以 通过 输入 特殊 的 终端 字符 来 给 它 发 送 
言 号 。 比 如 输入 Ctrl+C 通 单 会 给 进程 发 送 一 个 中 断 信 号 。 


口 系统 异常 。 比 如 浮 点 异常 和 非法 内 存 段 访问 。 
口 系 统 状态 变化 。 比 如 alarm 定 时 器 到 期 将 引起 SIGALRM 信 号 。 
口 运行 k 记 命令 或 调用 k 记 函数 。 


服务 器 程序 必须 处 理 (或 至 少 忽略 ) 一 些 常见 的 信号 ， 以 免 异 党 
终止 。 


本 章 移 讨论 如 何在 程序 中 发 送信 号 和 处 理 信 号 ， 然 后 讨论 Linux 文 
持 的 信号 种 类 ， 并 详细 探讨 其 中 和 网 络 编程 密切 相关 的 几 个 。 


10.1 Linux 信 和 号 概述 


10.1:1 发 送信 和 号 


Linux 下 ， 一 个 进程 给 其 他 进程 发 送信 号 的 API 是 ki 函数 。 其 定义 
如 下 : 


#include<sys/types.h> 
#include<signal.h> 
int kill(pid_t pid,int sig); 


该 函数 把 信号 sig 发 送 给 目标 进程 ; 目标 进程 由 pid 参 数 指定 ， 其 可 
能 的 取 值 及 含义 如 表 10-1 所 示 。 


表 10-1 kill 函数 的 pid 参数 及 其 含义 


pid 参数 含 尺 

pid>0 信号 发 送 给 PID 为 pid 的 进程 

pid=0 信号 发 送 给 本 进程 组 内 的 其 他 进程 

pid= -1 信号 发 送 给 除 init 进程 外 的 所 有 进程 ， 但 发 送 者 需要 拥有 对 目标 进程 发 送信 号 的 权限 
pid< -1 信和 号 发 送 给 组 ID 为 -pid 的 进程 组 中 的 所 有 成 员 


Linux 定 义 的 信号 值 都 大 于 0， 如 采 sig 取 值 为 0， 则 kil 函 数 不 发 送 
任何 信号 。 但 将 sig 设 置 为 0 可 以 用 来 检测 目标 进程 或 进程 组 是 否 存在 ， 
因为 检查 工作 总 是 在 信号 发 送 之 前 就 执行 。 不 过 这 种 检测 方式 是 不 可 
靠 的 。 一 方面 由 于 进程 PID 的 回 绕 ， 可 能 导致 被 检测 的 PID 不 是 我 们 期 
望 的 进程 的 PID; 另 一 方面 ， 这 种 检测 方法 不 是 原子 操作 。 


函数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 几 种 可 能 的 errno 
如 表 10-2 所 示 。 


表 10-2 kill 出 错 的 情况 


errno 含 义 
EINVAL 无 效 的 信号 

EPERM 该 进程 没有 权限 发 送信 号 给 任何 一 个 目标 进程 
ESRCH 目标 进程 或 进程 组 不 存在 


10.1.2 信和 号 处 理 方 式 


目标 进程 在 收 到 信和 号 时 ， 需 要 定义 一 个 接收 函数 来 处 理 之 。 信 和 号 
处 理 函 数 的 原型 如 下 : 


#include<signal.h> 
typedef void(*__sighandler_t)(int); 


言 号 处 理 函 数 只 市 有 一 个 整 型 参数 ， 该 参数 用 来 指示 信号 类 型 。 
言 号 处 理 函 数 应 该 是 可 重 入 的 ， 人 否则 很 容易 引发 一 些 芝 仿 条 件 。 所 以 
在 信号 处 理 函 数 中 三 茜 调 用 一 些 不 安全 的 函数 。 


除了 用 户 目 定义 信号 处 理 函 数 外 ，Pbits/signum.h 头 文件 中 还 定义 了 
言 号 的 两 种 其 他 处 理 方 式 一 -SIG_IGN 和 SIG_DEL: 


#include<bits/signum.h> 
#define SIG DFL((_ sighandler_t)0) 
#define SIG_IGN(( sighandler_t)1) 


SIG_IGN 表 示 名 略 目 标 信号 ，SIG_DFL 表 示 使 用 信号 的 默认 处 理 
方式 。 信 和 号 的 默认 处 理 方式 有 如 下 几 种 : 结束 进程 (Term) 、 忽 略 信 


号 (Ign) 、 结 束 进 程 并 生成 核心 转 储 文件 (Core) 、 和 暂停 进程 
(Stop) ， 以 及 继续 进程 (Cont) 。 


10.1.3 Linux 信和 号 


Linux 的 可 用 信号 都 定义 在 bits/signum.h 头 文件 中 ， 其 中 包括 标准 信 
号 和 POSIX 实 时 信和 号。 本 书 仅 讨论 标准 信号 ， 如 表 10-3 所 示 。 


表 10-3 Linux 标准 信号 
全 全 
SIGINT 键盘 输入 以 中 断 进 程 (Ctrl+C) 


SIGQUIT POSIX Core 键盘 输入 使 进程 退出 (Ctrl+\) 
SIGILL ANSI Core 非法 指令 


SIGTRAP POSIX 断 点 陷阱 ， 用 于 调试 
SIGABRT ANSI 进程 调用 abort 函数 时 生成 该 信号 


SIGIOT 4.2 BSD Core 和 SIGABRT 相同 
SIGBUS 4.2 BSD Core 总 线 错误 ， 错 误 内 存 访问 


信 号 默认 行为 


SIGCHLD POSIX | mm 


SIGCONT POSIX 


SIGVTALRM 4.2 BSD "| 


SIGPROF 4.2 BSD 
SIGWINCH 4.3 BSD 


SIGIO 4.2 BSD 


SIGSYS POSIX 


我 们 并 不 需要 在 代码 中 处理 所 有 这 


与 网 络 编程 天 系 


电池 电 最 过 低 时 ，SIGPWR 信号 


紧密 的 几 个 信号 : SIGHUP 、SIGPIPE 和 SIGURG 


( 续 ) 


含 义 
浮 点 异常 
终止 一 个 进程 。 该 信号 不 可 被 捕获 或 者 忽略 
用 户 自 定义 信号 之 一 
非法 内 存 段 引 用 
用 户 自 定义 信号 之 二 


往 读 端 被 关闭 的 管道 或 者 socket 连接 中 写 数 据 
由 alarm 或 setitimer 设置 的 实时 亲 钟 超时 引起 
终止 进程 。kil 命令 默认 发 送 的 信号 就 是 SIGTERM 
早期 的 Linux 使 用 该 信号 来 报告 数学 协 处 理 器 栈 错 误 
和 SIGCHLD 相同 

子 进程 状态 发 生变 化 〈 退 出 或 者 暂停 ) 

启动 被 暂停 的 进程 ‘(Ctrl+Q)。 如 果 目 标 进 程 未 处 于 暂停 状 

， 则 信和 号 被 忽略 

闪 信 (Ctrl+s), 
挂 起 进程 (Ctrl+Z) 
后 台 进 程 试 图 从 终端 读 取 输入 

后 台 进 程 试图 往 终端 输出 内 容 
socket 连接 上 接收 到 紧急 数据 
进程 的 CPU 使 用 时 间 超 过 其 软 限 制 
文件 尺寸 超过 其 软 限制 
与 SIGALRM 类 似 ， 不 过 
云 行 时 间 


该 信号 不 可 被 捕获 或 者 忽略 


只 统计 本 进程 用 户 空间 代码 的 


与 SIGALRM 类 似 ， 它 同时 统计 用 户 代 码 和 内 核 的 运行 时 间 
终端 窗口 大 小 发 生变 化 
与 SIGIO 类 似 
IO 就 绪 ， 比 如 socket 上 发 生 可 读 、 可 写 事 件 。 因 为 TCP 
服务 器 可 和 触发 SIGIO 的 条 件 很 多 ， 故 而 SIGIO 无 法 在 TCP 
服务 器 中 使 用 。SIGIO 信号 可 用 在 UDP 服务 器 中 ， 不 过 也 非 
常 少见 


对 于 使 用 UPS CUninterruptable Power Supply) 的 系统 ， 
将 被 触发 

非法 系统 调用 

保留 ， 通 常 和 SIGSYS 效果 相同 


文 些 信号 。 


本 章 后 面 将 重点 介绍 
后 


[© 


续 章节 还 将 介绍 SIGALRM、SIGCHLD 等 信号 的 使 用 。 


10.1.4 中 晰 系统 调用 


如 果 程 序 在 执行 处 于 阻塞 状态 的 系统 调用 时 接收 到 信号 ， 并 且 我 
们 为 该 信号 设置 了 信和 号 处 理 函 数 ， 则 默认 情况 下 系统 调用 将 被 中 断 ， 
并 且 errno 被 设置 为 EINTR。 我 们 可 以 使 用 sigaction 函 数 ( 见 后 文 ) 为 信 
号 设置 SA_RESTARIT 标 志 以 目 动 重 局 被 该 信号 中 断 的 系统 调用 。 


对 于 默认 行为 是 暂停 进程 的 信号 〈 比 如 SIGSTOP、SIGTTIN) ， 
如 果 我 们 没有 为 它们 设置 信号 处 理 函 数 ， 则 它们 也 可 以 中 断 某 些 系统 
调用 (比如 connect、epoll_wait) 。POSIX 没 有 规定 这 种 行为 ， 这 是 
Linux 独 有 的 。 


10.2 ”信号 函数 
10.2.1 ”signal 系 统 调 用 


要 为 一 个 信号 设置 处 理 函 数 ， 可 以 使 用 下 面 的 signal 系 统 调用 : 


#include<signal.h> 
_Sighandler t signal(int Ssig,_sighandler_t_handler) 


sig 参 数 指出 要 捕获 的 信号 类 型 。 handler 参 数 是 _sighandler_t 类 型 
的 函数 指针 ， 用 于 指定 信号 sig 的 处 理 函 数 。 


signal 函 数 成 功 时 返回 一 个 函数 指针 ， 该 画 数 指 针 的 类 型 也 是 
_sighandler t。 这 个 返回 值 是 前 一 次 调用 signal 函 数 时 传 入 的 函数 指针 ， 
或 者 是 信号 sig 对 应 的 默认 处 理 函 数 指针 SIG_DEF (如 果 是 第 一 次 调用 
signal 的 话 ) 。 


signal 系 统 调 用 出 错时 返回 SIG_ERR， 并 设置 ermo 。 
10.2.2 ”sigaction 系 统 调 用 


设置 信号 处 理 函 数 的 更 健壮 的 接口 是 如 下 的 系统 调用 : 


#include<signal.h> 


int sigaction(int sig,const struct sigaction*act,struct 


sigaction*oact); 


sig 参 数 指出 要 捕获 的 信号 类 型 ，act 参 数 指定 新 的 信号 处 理 方式 ， 


oact 参 数 则 输出 信号 先前 的 处 理 方式 (如 果 不 为 NULL 的 话 ) 


。act 和 


oact 都 是 sigaction 结 构 体 类 型 的 指针 ，sigaction 结 构 体 描述 了 信和 号 处 理 


的 细节 ， 其 定义 如 下 : 


struct sigaction 


#ifdef USE POSIX199309 
union 


_sighandler_t sa_handler; 

void(*sa sigaction)(int,siginfo_t*,void*); 

} 

_Sigaction_handler; 

#define sa_handler__sigaction_handler.sa_ handler 
#define sa_ sigaction sigaction_handler.sa sigaction 
#else 

_Ssighandler_t sa_handler; 

#endif 

_Sigset _t sa mask; 

int sa_flags,; 

void(*sa_restorer)(void); 


}; 


该 结构 体 中 的 sa_hander 成 员 指 定 信 号 处 理 函 数 。sa_mask 成 员 设 置 
进程 的 信号 掩 码 (确切 地 说 是 在 进程 原 有 信号 掩 码 的 基础 上 增加 信号 


掩 码 ) ， 以 指定 哪些 信号 不 能 发 送 给 本 进程 。sa_mask 是 信号 集 sigset_t 


(_sigset_t 的 同义词 ) 类 型 ， 该 类 型 指定 一 组 信号 。 关 于 信 


号 集 ， 我 们 


将 在 后 面 介 绍 。sa_flags 成 员 用 于 设置 程序 收 到 信号 时 的 行为 ， 其 可 选 


值 如 表 10-4 所 示 。 


表 10-4 sa_flags 选项 


选 项 含义 

SA_NOCLDSTOP er 的 sig 参数 是 SIGCHLD， 则 设置 该 标志 表示 子 进程 暂停 时 不 生成 

SA _NOCLDWAIT 如 果 sigaction 的 sig 参数 是 SIGCHLD， 则 设置 该 标志 表示 子 进程 结束 时 不 产生 僵尸 进程 

SA_ SIGINFO 本 sa_sigaction 作为 信号 处 理 函 数 〈 而 不 是 默认 的 它 给 进程 提供 更 多 相关 

SA_ONSTACK 调用 由 sigaltstack 函数 设置 的 可 选 信号 栈 上 的 信号 处 理 函 数 

SA_RESTART 重新 调用 被 该 信号 终止 的 系统 调用 

a 当 接 收 到 信号 并 进入 其 信号 处 理 函 数 时 ， 不 屏蔽 该 信号 。 默 认 情 况 下 ， 我 们 期 望 进程 在 
处 理 一 个 信号 时 不 再 接收 到 同 种 信号 ， 否 则 将 引起 一 些 竞 态 条 件 

SA_RESETHAND 信和 号 处 理 函 数 执行 完 以 后 ， 恢 复 信 号 的 默认 处 理 方式 

SA_INTERRUPT 中 断 系 统 调用 

SA_NOMASK 同 SA_NODEFER 

SA_ONESHOT 同 SA_RESETHAND 

SA_STACK 同 SA_ONSTACK 


Sa_restorer 成 员 已 经 过 时 ， 最 好 不 要 使 用 。sigaction 成 功 时 返回 0， 
失败 则 返回 -1 并 设置 errno 。 


10.3 ”信和 与 集 


10.3.1 信号 集 函 数 


前 文 提 到 ，Linux 使 用 数据 结构 sigset t 来 表示 一 组 信号 。 其 定义 如 


#include<bits/sigset.h> 
#define_SIGSET_NWORDS(1024/(8*sizeof (unsigned long int))) 
typedef struct 


unsigned long int_ val[_SIGSET_NWORDS]; 
} sigset_t; 


由 该 定义 可 见 ，sigset_t 实 际 上 是 一 个 长 整 型 数组 ， 数 组 的 每 个 元 
素 的 每 个 位 表示 一 个 信号 。 这 种 定义 方式 和 文件 搞 述 符 集 fd_set 类 似 。 
Linux 提 供 了 如 下 一 组 函数 来 设置 、 修 改 、 删 除 和 查询 信号 


#include<signal.h> 

int sigemptyset(sigset_t*_set)/* 清 空 信号 集 */ 

int sigfillset (sigset_t*_set)/* 在 信号 集中 设置 所 有 信和 号 */ 

int sigaddset(sigset_t*_set,int_signo)/* 将 信号 _signo 添 加 至 信号 集中 */ 

int sigdelset(sigset t*_set,int_signo)/* 将 信号 _signo 从 信号 集中 删除 */ 

int sigismember(_const sigset _t*_set,int_signo)/* 测 试 _ signo 是 否 在 信 
号 集中 */ 


10.3.2 ”进程 信号 捧 码 


前 文 提 到 ， 我 们 可 以 利用 sigaction 结 构 体 的 sa_mask 成 员 来 设置 进 
程 的 信号 掩 码 。 此 外 ， 如 下 函数 也 可 以 用 于 设置 或 查看 进程 的 信号 掩 
码 : 


#include<signal.h> 
int sigprocmask(int_ how,_const sigset t* set,sigset t* oset ) ， 


_set 参 数 指定 新 的 信号 掩 码 ，_oset 参 数 则 输出 原来 的 信号 掩 码 (如 
果 不 为 NULL 的 话 ) 。 如 果 _set 参 数 不 为 NULL， 则 _how 参 数 指定 设置 
进程 信号 掩 码 的 方式 ， 其 可 选 值 如 表 10-5 所 示 。 


表 10-5 _how 参数 


_how 参数 区 “此 
SIG BLOCK 新 的 进程 信号 掩 码 是 其 当前 值 和 _set 指定 信号 集 的 并 集 
SIG UNBLOCK 新 的 进程 信号 掩 码 是 其 当前 值 和 ~ _set 信和 号 集 的 交集 ， 因 此 _set 指定 的 信和 号 集 将 不 被 屏蔽 
SIG SETMASK 对 接 将 进程 信号 掩 码 设置 为 _set 


如 果 _set 为 NULL， 则 进程 信号 掩 码 不 变 ， 此 时 我 们 仍然 可 以 利用 
_oset 参 数 来 获得 进程 当前 的 信号 掩 码 。 


sigprocmask 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


10.3.3 ”被 挂 起 的 信号 


设置 进程 信和 号 掩 码 后 ， 被 屏蔽 的 信号 将 不 能 外 Q 进 程 接收 。 如 来 给 
进程 发 送 一 个 被 屏蔽 的 信号 ， 则 操作 系统 将 该 信号 设置 为 进程 的 一 个 


被 挂 起 的 信和 号。 如 果 我 们 取消 对 被 挂 起 信号 的 屏蔽 ， 则 它 能 立即 被 进 
程 接收 到 。 如 下 函数 可 以 获得 进程 当前 被 挂 起 的 信和 号 集 : 


#include<signal.h> 
int sigpending(sigset t*set); 


set 参 数 用 于 保存 被 挂 起 的 信号 集 。 显 然 ， 进 程 即使 多 次 接收 到 同 
一 个 被 挂 起 的 信号 ，sigpending 画 数 也 只 能 反映 一 次 。 并 且 ， 当 我 们 再 
次 使 用 sigprocmask 使 能 该 挂 起 的 信号 时 ， 该 信号 的 处 理 醒 数 也 只 被 甬 
发 一 次 。 


sigpending 成 功 时 返回 9， 失败 时 返回 -1 并 设置 ermo 。 


天 于 信和 号 和 信号 集 ，Linux 还 提供 了 很 多 有 用 的 API， 这 里 就 不 一 
一 介绍 了 。 需 要 提醒 读者 的 是 ， 要 始终 清楚 地 知道 进程 在 每 个 运行 时 
刻 的 信号 掩 码 ， 以 及 如 何 适 当地 处 理 捕 获 到 的 信号 。 在 多 进程 、 多 线 
程 环境 中 ， 我 们 要 以 进程 、 线 程 为 单位 来 处 理 信号 和 信和 号 掩 码 。 我 们 
不 能 设想 新 创建 的 进程 、 线 程 具 有 和 父 进程 、 主 线程 完全 相同 的 信和 号 
符 征 。 比 如 ，fork 调 用 产生 的 子 进程 将 继承 父 进 程 的 信号 掩 码 ， 但 具有 


一 个 空 的 挂 起 信号 集 。 


10.4 统一 事件 源 


信号 是 一 种 异步 事件 : 信号 处 理 函 数 和 程序 的 主 循环 是 两 条 不 同 
的 执行 路 线 。 很 显然 ， 信 号 处 理 函 数 需 要 尽 可 能 快 地 执行 完毕 ， 以 确 
保 该 信号 不 被 屏 菩 〈 前 面 提 到 过 ， 为 了 避免 一 些 竞 态 条 件 ， 信 和 号 在 处 
理 期 间 ， 系 统 不 会 再 次 触发 它 ) 太 久 。 一 种 典型 的 解决 方案 是 ， 把 信 
号 的 主要 处 理 逻 辑 放 到 程序 的 主 循 环 中 ， 当 信号 处 理 函 数 被 触发 时 ， 
它 只 是 催 单 地 通知 主 循环 程序 接收 到 信和 号， 并 把 信号 值 传递 给 主 循 
环 ， 主 循环 再 根据 接收 到 的 信和 号 值 执行 目标 信号 对 应 的 逻辑 代码 。 信 
号 处 理 函 数 通 党 使 用 管道 来 将 信号 “传递 ”给 主 循环 : 信号 处 理 函 数 往 
管道 的 写 端 写 入 信号 值 ， 主 循环 则 从 管道 的 读 端 读 出 该 信号 值 。 那 么 
主 循环 怎么 知道 管道 上 何 时 有 数据 可 读 呢 ?这 很 简单 ， 我 们 只 需要 使 用 
IO 复 用 系统 调用 来 监听 管道 的 读 端 文件 描述 符 上 的 可 读 事 件 。 如 此 一 
来 ， 信 和 号 事件 束 能 和 其 他 IO 事件 一 样 被 处 理 ， 即 统一 事件 源 。 


很 多 优秀 的 MO 框架 库 和 后 人 台 服 务 器 程序 都 统一 处 理 信 号 和 IO 事 
件 ， 比 如 Libevent MO 框 架 库 和 xinetd 超 级 服务 。 代 码 清单 10-1 给 出 了 统 
一 事件 源 的 一 个 简单 实现 。 


代码 清单 10-1 统一 事件 源 


#include<sys/types.h> 
#include<sys/socket.h> 


#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<signal.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#include<stdlib.h> 
#include<sys/epoll.h> 
#include<pthread.h> 

#define MAX_EVENT_NUMBER 1024 
static int pipefd[2]; 

int setnonblocking(int fd) 

{ 

int old_option=fcntl1l(fd,F_GETFL); 
int new_option=old_option|O_NONBLOCK; 
fcntli(fd,F_SETFL,new_option); 
return old_option; 


} 

void addfd(int epollfd,int fd) 

{ 

epoll event event; 

event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET; 

epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 
setnonblocking(fd); 


} 
/* 信 号 处 理 画 数 */ 
void Sig_handJler(int sig) 


{ 

/* 保 留 原来 的 errno， 在 函数 最 后 恢复 ， 以 保证 函数 的 可 重 入 性 */ 
int save_ errno=errno; 

int msg=sig; 

send(pipefd[1], (char*)&&msg,1,0);/* 将 信号 值 写 入 管道 ， 以 通知 主 循环 */ 
errno=save_errno; 


} 

/* 设 置信 号 的 处 理 函 数 */ 

void addsig(int Sig ) 

{ 

struct sigaction Sa 
memset(&sa,'\0',sizeof(sa)); 
sa.sa_handler=sig_handler; 
sa.sa_flags|=SA_ RESTART; 
sigfillset(&%sa.sa mask); 
assert(sigaction(sig,&sa,NULL)!=-1); 


} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
if(ret==-1) 


printf("errno is%d\n",errno); 

return 1; 

} 

ret=listen(listenfd,5); 

assert(ret!=-1); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int epollfd=epoll create(5); 
assert(epollfd!=-1); 

addfd(epollfd,1istenfd); 

/* 使 用 socketpair 创 建 管道 ， 注 册 pipefd[90] 上 的 可 读 事 件 */ 
ret=Socketpair(PF_UNIX, SOCK_STREAM, 0,pipefd ) ; 
assert(ret!=-1); 

setnonblocking(pipefd[1]); 
addfd(epollfd,pipefd[0]); 

/* 设 置 一 些 信 号 的 处 理 函 数 */ 

addsig(SIGHUP); 

addsig(SIGCHLD); 

addsig(SIGTERM); 

addsig(SIGINT); 

bool stop_server=false; 

while(!stop_server) 

{ 

int number=epol] wait(epollfd,events,MAX_EVENT_NUMBER, -1); 
if((number <0)&&(errno!=EINTR)) 

{ 

printf("epoll failure\n"); 

break; 


} 


只 


for(int i=0;i<number;i++) 

{ 

int sockfd=events[i].data.fd; 

/* 如 果 就 绪 的 文件 描述 符 是 1istenfd， 则 处 理 新 的 连接 */ 
if(sockfd==listenfd) 

{ 

struct sockaddr_in client_ address; 

socklen t client_addrlength=sizeof(client_address ) ; 
int connfd=accept(listenfd, (Struct sockaddr*) 
Kclient address, &client addrlength); 
addfd(epollfd,connfd); 


} 

/* 如 果 就 绪 的 文件 描述 符 是 pipefd[0]， 则 处 理 信号 */ 

else if((sockfd==pipefd[0])&&(events[i].events&EPOLLIN)) 
{ 

int sig; 

char Signals[1024] ; 

ret=recv(pipefd[0],signals, sizeof(signals),o); 

if(ret==-1) 

{ 


continue; 


else if(ret==0) 
{ 


continue; 


} 

else 

{ 

/* 因 为 每 个 信和 号 值 占 1 字 节 ， 所 以 按 字 节 来 逐个 接收 信和 号。 我 们 以 SIGTERM 为 例 ， 来 说 
明 如 何 安 全 地 终止 服务 器 主 循环 */ 

for(int i=0;i<ret;++i) 

{ 

switch(signals[i]) 

{ 

case SIGCHLD: 

case SIGHUP: 

{ 


continue; 

} 

case SIGTERM : 
case SIGINT : 
{ 


stop_server=true; 


cc 一 


printf("close fds\n"); 
close(listenfd); 
close(pipefd[1]); 
close(pipefd[0]); 
return ©; 


J 


10.5 网络 编程 相关 信号 
本 节 中 我 们 详细 探讨 三 个 和 网 络 编程 密切 相关 的 信号 。 
10.5.1 SIGHUP 
当 持 起 进程 的 控制 终端 时 ，SIGHUP 信 号 将 被 触发 。 对 于 没有 控 


制 终端 的 网 络 后 台 程 序 而 言 ， 它 们 通常 利用 SIGHUP 信 和 号 来 强制 服务 
绥 重 读 配置 文件 。 一 个 典型 的 例子 是 xinetd 超 级 服务 程序 。 


xinetd 程 序 在 接收 到 SIGHUP 信 和 号 之 后 将 调用 hard_reconfig 函 数 
( 见 xinetd 源 码 ) ， 它 循环 读 取 /etc/xinetd.d/ 目 录 下 的 每 个 子 配置 文 
件 ， 并 检测 其 变化 。 如 果 某 个 正在 运行 的 子 服 务 的 配置 文件 被 修改 以 
停止 服务 ， 则 xinetd 主 进程 将 给 该 子 服务 进程 发 送 SIGTERM 信 号 以 结 
束 它 。 如 果 某 个 子 服务 的 配置 文件 被 修改 以 开局 服务 ， 则 xinetd 将 创建 
新 的 socket 并 将 其 绑 定 到 该 服务 对 应 的 端口 上 。 下 面 我 们 简单 地 分 析 
xinetd 处 理 SIGHUP 信 号 的 流程 。 


测试 机 絮 Kongming20 上 具有 如 下 环境 : 


$ps-ef|grep xinetd 

root 7438 1 0 11:32?00:00:00/usr/sbin/xinetd-stayalive- 
pidfile/var/run/xinetd.pid 

root 7442 7438 0 11:32?00:00:00(xinetd service)echo-stream 
Kongming20 


$sudo lsof-p 7438 

xinetd 7438 root 3r FIFO 0,8 0ot0 37639 pipe 

xinetd 7438 root 4w FIFO 0,8 OtQO 37639 pipe 

xinetd 7438 root Su IPVv6 37652 OtQO TCP*:echo(LISTEN) 


从 ps 的 输出 来 看 ，xinetd 创 建 了 子 进程 7442， 它 运行 echo-stream 内 
部 服务 。 从 lsof 的 输出 来 看 ，xinetd 打 开 了 一 个 管道 。 该 管道 的 读 端 文 
件 描述 符 的 值 是 3， 写 端 文件 描述 符 的 值 是 4。 后 面 我 们 将 看 到 ， 它 们 
的 作用 就 是 统一 事件 源 。 现 在 我 们 修改 /etc/xinetd.d/ 目 录 下 的 部 分 配置 
文件 ， 并 给 xinetd 发 送 一 个 SIGHUP 信 和 号。 具体 操作 如 下 : 


$sudo sed-i's/disable.*=.*no/disable=yes/'/etc/xinetd.d/echo- 
stream# 停 止 echo 服 务 
$sudo sed-i's/disable.*=.*yes/disable=no/'/etc/xinetd.d/telnet# 
启 telnet 服 务 
$sudo strace-p 7438& >a.txt 
$sudo kill-HUP xinetd 


strace 命 令 ( 见 第 17 章 ) 能 跟踪 程序 执行 时 调用 的 系统 调用 和 接收 
到 的 信号 。 这 里 我 们 利用 strace 命 令 跟 踪 进 程 7438， 即 xinetd 服 务 器 程 
序 ， 以 观察 xinetd 是 如 何 处 理 SIGHUP 信 和 号 的 。 此 次 strace 命 令 的 部 分 输 
出 如 代码 清单 10-2 所 示 。 


代码 请 单 10-2 ”用 strace 命 令 查 看 xinetd 处 理 SIGHUP 的 流程 


---{Si_signo=SIGHUP, si _code=SI_USER, si _ pid=7697, si_uid=0, 

si_value={int=1154706400, ptr=0x44d36be0}}(Hangup)--- 

write(4,"\1",1)=1 

sigreturn()=?(mask now[]) 

poll([{fd=5,events=POLLIN}, 
{fd=3,events=POLLIN}],2,-1)=1([{fd=3,revents=POLLIN}]) 

ioct1(3, FIONREAD, [1] )=0 


read(3,"\1",1)=1 
stat64("/etc/xinetd.d/echo-stream", 
{St_mode=S_IFREG|0644,st_ size=1149,...})=0 
open("/etc/xinetd,.d/echo-stream",O_RDONLY)=8 
time(NULL)=1337053896 
send(7,"<31>May 15 11:51:36 
xinetd[7438]"...,139,MSG_ NOSIGNAL )=139 
fstat64(8, {st_mode=S_IFREG|0644, st_size=1149,...})=0 
lseek(8,0,SEEK_ CUR)=0 
fcnt164(8,F_GETFL)=0(flags 0_RDONLY ) 
read(8,"#This is the configuration for"...,8192)=1149 
read(8,"",8192)=0 
close(8)=0 
kill(7442,SIGTERM)=0 
waitpid(7442, NULL,WNOHANG)=0 
socket (PF_INET6,SOCK_ STREAM,IPPROTO_TCP)=5 
fcnt164(5,F_SETFD,FD_ CLOEXEC)=0 
setsockopt(5,SOL_IPV6, IPV6_V6ONLY, [0],4)=0 
setsockopt(5,SOL_ SOCKET, SO_REUSEADDR, [1],4)=0 
bind(5， 
{Sa_family=AF_INET6, Sin6_port=htons(23)，inet_pton(AF_INET6,，": :"， 作 
sin6_addr),sin6_flowinfo=0, sin6_scope_id=0},28)=0 
listen(5,64)=0 


该 输出 分 为 4 个 部 分 ， 我 们 用 空 行将 每 个 部 分 隔 开 。 


第 一 部 分 描述 程序 接收 到 SIGHUP 信 号 时 ， 信 和 号 处 理 函 数 使 用 管 
通知 主 程序 该 信号 的 到 来 。 信 号 处 理 函 数 往 文件 描述 符 4 (管道 的 写 
) 写 入 信号 值 1 (SIGHUP 信 号 ) ， 而 主 程序 使 用 poll 检 测 到 文件 描 
述 符 3 (管道 的 读 端 上 有 可 读 事件 ， 就 将 管道 上 的 数据 读 入 。 


去 


第 二 部 分 描述 了 xinetd 重 者 读 取 一 个 于 配置 文件 的 过 程 。 


第 三 部 分 描述 了 xinetd 给 子 进 程 echo-stream (PID 为 7442) 发 送 
SIGTERM 信 号 来 终止 该 子 进程 ， 并 调用 waitpid 来 等 待 该 子 进程 结 


第 四 部 分 描述 了 xinetd 局 动 telnet 服 务 的 过 程 : 创建 一 个 流 服务 
socket 并 将 其 绑 定 到 端口 22 上 ， 然 后 监听 该 端口 。 


10.5.2 SIGPIPE 


默认 情况 下 ， 往 一 个 读 端 关闭 的 管道 或 socket 连 接 中 写 数 据 将 引 
发 SIGPIPE 信 和 号。 我 们 需要 在 代码 中 捕获 并 处 理 该 信号 ， 或 者 至 少 忽 
略 它 ， 因 为 程序 接收 到 SIGPIPE 信 和 号 的 默认 行为 是 结束 进程 ， 而 我 们 
绝对 不 希望 因为 错误 的 写 操 作 而 导致 程序 退出 。 引 起 SIGPIPE 信 和 号 的 
写 操 作 将 设置 errno 为 EPIPE 。 


第 5 草 提 到 ， 我 们 可 以 使 用 send 函 数 的 MSG_NOSIGNAL 标 志 来 禁 
止 写 操作 触发 SIGPIPE 信 和 号。 在 这 种 情况 下 ， 我 们 应 该 使 用 send 函 数 反 
馈 的 errno 值 来 判断 管道 或 者 socket 连 接 的 读 端 是 否 已 经 关闭 。 


此 外 ， 我 们 也 可 以 利用 MO 复 用 系统 调用 来 检测 管道 和 socket 连 接 
的 读 端 是 否 已 经 关闭 。 以 pol 为 例 ， 当 管道 的 读 端 关闭 时 ， 写 端 文件 
描述 符 上 的 POLLHUP 事 件 将 被 触发 ， 当 socket 连 接 被 对 方 天 闭 时 ， 
socket 上 的 POLLRDHUP 事 件 将 被 触发 。 


10.5.3 SIGURG 


在 Linux 环 境 下 ， 内 核 通 知 应 用 程序 带 外 数据 到 达 主 要 有 两 种 方 
法 : 一 种 是 第 9 章 介绍 的 IO 复 用 技术 ，select 等 系统 调用 在 接收 到 带 外 
数据 时 将 返回 ， 并 向 应 用 程序 报告 socket 上 的 异常 事件 ， 代 码 清单 9-1 

给 出 了 一 个 这 方面 的 例子 ; 男 外 一 种 方法 就 是 使 用 SIGURG 信 号 ， 如 
代码 清单 10-3 所 示 。 


代码 清单 10-3 ”用 SIGURG 检 测 带 外 数据 是 否 到 达 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<stdlib.h> 
#include<errno.h> 
#include<string.h> 
#include<signal.h> 
#include<fcntl.h> 

#define BUF_SIZE 1024 

static int connfd ， 
/*SIGURG 信 和 号 的 处 理 函 数 */ 

void Sig_urg(int sig) 

{ 

int save_ errno=errno; 

char buffer[BUF_SIZE]; 

memset (buffer,'\0',BUF_SIZE); 
int ret=recv(connfd,buffer,BUF_SIZE-1,MSG_00B);/* 接 收 带 外 数据 */ 
printf("got%d bytes of oob data'%s'\n",ret,buffer); 
errno=save_errno; 


void addsig(int sig,void(*sig handler)(int)) 
{ 

struct sigaction Sa 
memset(&sa,'\0',sizeof(sa)); 
sa.sa_handler=sig_handler; 
sa.sa_flags|=SA_RESTART; 
sigfillset(&%sa.sa mask); 
assert(sigaction(sig,&sa,NULL)!=-1); 


} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 

return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sock=socket(PF_INET,SOCK STREAM,0); 

assert(sock>=0); 

int ret=bind(sock, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(sock,5); 

assert(ret!=-1); 

struct sockaddr_in client; 

socklen _t client_addrlength=sizeof(client); 

connfd=accept(sock, (struct sockaddr*)&client,& 
client_addrlength); 

if(connfd<0) 

{ 

printf("errno is:%d\n",errno); 

} 

else 

{ 

addsig(SIGURG, sig_urg); 

/* 使 用 SIGURG 信 号 之 前 ， 我 们 必须 设置 socket 的 宿主 

fcntil(connfd,F_SETOWN, getpid()); 

char buffer[BUF_SIZE]; 

while(1)/* 循 环 接收 普通 数据 */ 


程 或 进程 组 */ 


Ne 


memset (buffer,'\0',BUF_SIZE); 
ret=recv(connfd, buffer,BUF_SIZE-1,0); 
if(ret<=0) 

{ 


break; 


} 
printf("got%d bytes of normal data'%s'\n",ret,buffer); 


} 


close(connfd); 


close(sock); 


return 0; 


读者 不 妨 编 译 并 运行 该 服务 右 程 序 ， 然 后 使 用 代码 清单 5-6 所 描述 
的 客户 端 程序 来 往 该 服务 器 程序 发 送 数据 ， 以 观察 服务 器 是 如 何 同时 
处 理 普 通 数 据 和 市 外 数据 的 。 


至 此 ， 我 们 讨论 完了 TCP 带 外 数据 相关 的 所 有 知识 。 下 面 帮 助 读 
者 重新 梳理 一 下 。3.8 节 中 我 们 介绍 了 TCP 带 外 数据 的 基本 知识 ， 其 中 
探讨 了 TCP 模 块 是 如 何 发 送 和 接收 带 外 数据 的 。5.8.1 小 节 描 述 了 如 何 
在 应 用 程序 中 使 用 带 MSG_OOB 标 志 的 send/recv 系 统 调用 来 发 送 /接收 
带 外 数据 ， 并 给 出 了 相关 代码 。9.1.3 小 节 和 10.5.3 小 节 分 别 介 绍 了 检测 
带 外 数据 是 否 到 达 的 两 种 方法 : W/O 复 用 系统 调用 报告 的 异常 事件 和 
SIGURG 信 号 。 但 应 用 程序 检测 到 带 外 数据 到 达 后 ， 我 们 还 需要 进 一 
步 判 断 带 外 数据 在 数据 流 中 的 具体 位 置 ， 才 能 够 准确 无 误 地 读 取 带 外 
数据 。5.9 节 介绍 的 sockatmark 系 统 调用 就 是 专门 用 于 解决 这 个 问题 
的 。 它 判断 一 个 socket 是 否 处 于 带 外 标记 ， 即 该 socket 上 下 一 个 将 被 读 
取 到 的 数据 是 否 是 带 外 数据 。 


第 11 章 ”定时 器 纠 


网 络 程序 需要 处 理 的 第 三 类 事件 是 定时 事件 ， 比 如 定期 检测 一 个 
客户 连接 的 活动 状态 。 服 务 器 程序 通常 管理 着 众多 定时 事件 ， 因 此 有 
效 地 组 织 这 些 定时 事件 ， 使 之 能 在 预期 的 时 间 点 被 触发 且 不 影响 服务 
如 的 主要 逻辑 ， 对 于 服务 右 的 性 能 有 大 至 天 重要 的 影响 。 为 此 ， 我 们 
要 将 每 个 定时 事件 分 别 封 汉 成 定时 器 ， 并 使 用 某 种 容 占 类 数据 结构 ， 
比如 链表 、 排 序 链表 和 时 间 轮 ， 将 所 有 定时 器 串联 起 来 ， 以 实现 对 定 
时 事件 的 统一 管理 。 本 章 主要 讨论 的 就 是 两 种 高 效 的 管理 定时 器 的 容 
故 : 时 间 轮 和 时 间 堆 。 


不 过 ， 在 讨论 如 何 组 织 定 时 右 之 前 ， 我 们 先 要 介绍 定时 的 方法 。 
定时 是 指 在 一 段 时 间 之 后 触发 菜 段 代码 的 机 制 ， 我 们 可 以 在 这 段 代 码 
中 依次 处 理 所 有 到 期 的 定时 髓 。 换 言 之 ， 定 时 机 制 是 定时 融 得 以 被 处 
理 的 原动力 。Linux 提 供 了 三 种 定时 方法 ， 它 们 有 是: 


品 socket 选 项 SO _RCVTIMEO 和 SO_SNDTIMEO。 


口 SIGALRM 信 和 号 。 


口 VO 复 用 系统 调用 的 超时 参数 。 


11.1 ， socket 选项 SO RCVTIMEO 和 
SO_SNDTIMEO 


第 5 章 中 我 们 介绍 过 socket 选 项 SO_RCVTIMEO 和 
SO_SNDTIMEO， 它 们 分 别 用 来 设置 socket 接 收 数据 超时 时 间 和 发 送 数 
据 超时 时 间 。 因 此 ， 这 两 个 选项 仅 对 与 数据 接收 和 发 送 相关 的 socket 专 
用 系统 调用 《socket 专 用 的 系统 调用 指 的 是 5.2~5.11 节 介绍 的 那些 
socket API) 有 效 ， 这 些 系统 调用 包括 send、sendmsg、recv、recvmsg、 
accept 和 connect。 我 们 将 选项 SO_RCVTIMEO 和 SO_SNDTIMEO 对 这 些 
系统 调用 的 影响 总 结 于 表 11-1 中 。 


表 11-1 SO_RCVTIMEO 和 SO_SNDTIMEO 选项 的 作用 


系统 调用 有 效 选项 系统 调用 超时 后 的 行为 

send SO_SNDTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
sendmsg SO_SNDTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
TecV SO_RCVTIMEO 返回 -1， 设 置 errno 为 EAGAIN 或 EWOULDBLOCK 
recvmsg SO_RCVTIMEO 返回 -1， 设置 errno 为 EAGAIN 或 EWOULDBLOCK 
accept SO_ RCVTIMEO 返回 -1， 设置 errno 为 EAGAIN 或 EWOULDBLOCK 
connect SO_SNDTIMEO 返回 -1， 设 置 errno 为 EINPROGRESS 


由 表 11-1 可 见 ， 在 程序 中 ， 我 们 可 以 根据 系统 调用 (send、 
sendmsg、recv、recvmsg、accept 和 connect) 的 返回 值 以 及 errno 来 判断 
超时 时 间 是 否 已 到 ， 进 而 决定 是 否 开始 处 理 定 时 任务 。 代 码 清单 11-1 以 
connect 为 例 ， 说 明 程 序 中 如 何 使 用 SO_SNDTIMEO 选 项 来 定时 。 


代码 清单 11-1 设置 connect 超 时 时 间 


#include<sys/types.h> 

#include<sys/socket.h> 

#include<netinet/in.h> 

#include<arpa/inet.h> 

#include< stdlib.h> 

#include<assert.h> 

#include< stdio.h> 

#include<errno.h> 

#include<fcntl.h> 

#include<unistd.h> 

#include<string.h> 

/* 超 时 连接 画 数 */ 

int timeout_connect(const char*ip,int port,int time) 

{ 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof(address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET, ip, Saddress.sin addr); 

address.sin_port=htons(port); 

int sockfd=socket(PF_INET,SOCK_STREANM, 0); 

assert(sockfd>=0); 

/* 通 过 选项 SO_RCVTIMEO 和 SO_SNDTIMEO 所 设置 的 超时 时 间 的 类 型 是 tijmeval， 这 和 
select 系 统 调用 的 超时 参数 类 型 相同 */ 

struct timeval timeout; 

timeout.tv_sec=time; 

timeout.tv_usec=0; 

socklen_t len=sizeof (timeout); 

ret=setsockopt(sockfd,SOL_ SOCKET,SO_SNDTIMEO, &timeout, len); 

assert(ret!=-1); 

ret=connect(sockfd, (struct sockaddr*)&address,sizeof(address)); 

if(ret==-1) 


{ 

/* 超 时 对 应 的 错误 号 是 EINPROGRESS。 下 面 这 个 条 件 如 果 成 立 ， 我 们 就 可 以 处 理 定时 任 
务 了 */ 

if(errno==EINPROGRESS ) 


printf("connecting timeout,process timeout logic\n"); 


return-1; 

} 

printf("error occur when connecting to server\n"); 
return-1; 

} 

return sockfd; 

} 


int main(int argc,char*argv[|]) 


{ 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int sockfd=timeout_connect(ip,port,10); 
if(sockfd<0) 

{ 


return 1; 


} 


return 0; 


} 


[1] 本 章 的 标题 叫 定时 器 ， 这 是 行业 内 党 用 的 叫 法 。 实 际 上 ， 其 确切 的 
叫 法 是 定时 器 容器 。 二 者 常 混 谈 ， 本 书 也 没有 刻意 区 分 。 不 过 ， 从 本 
章 的 第 一 段 话 还 是 能 看 出 二 者 的 区 别 : 定时 器 容器 是 容 絮 类 数据 结 
构 ， 比 如 时 间 轮 ， 定 时 器 则 是 容器 内 容纳 的 一 个 个 对 象 ， 它 是 对 定时 
事件 的 封 汉 。 


11.2 SIGALRM 信 和 号 


第 10 章 提 到 ， 由 alarm 和 setitimer 函 数 设置 的 实时 曾 钟 一 旦 超时 ， 

将 触发 SIGALRM 信 和 号。 因此， 我 们 可 以 利用 该 信号 的 信号 处 理 函 数 来 
处 理 定时 任务 。 但 是 ， 如 果 要 处 理 多 个 定时 任务 ， 我 们 就 需要 不 断 地 
触发 SIGALRM 信 号 ， 并 在 其 信号 处 理 函 数 中 执行 到 期 的 任务 。 一 般 而 
言 ，SIGALRM 信 号 按照 固定 的 频率 生成 ， 即 由 alarm 或 setitimer 函 数 设 
置 的 定时 周期 T 保 持 不 变 。 如 果 某 个 定时 任务 的 超时 时 间 不 是 I 的 整数 
倍 ， 那 么 它 实 际 被 执行 的 时 间 和 预期 的 时 间 将 略 有 偏差 。 因 此 定时 周 
期 T 反 映 了 定时 的 精度 。 


本 节 中 我 们 通过 一 个 实例 一 一 处 理 非 活动 连接 ， 来 介绍 如 何 使 用 
SIGALRM 信 号 定时 。 不 过 ， 我 们 需要 先 给 出 一 种 简单 的 定时 器 实现 
一 一 基于 升序 链表 的 定时 器 ， 并 把 它 应 用 到 处 理 非 活 动 连接 这 个 实例 
中 。 这 样 ， 我 们 才能 观察 到 SIGALRM 信 号 处 理 函 数 是 如 何 处 理 定时 器 
并 执行 定时 任务 的 。 此 外 ， 我 们 介绍 这 种 定时 器 也 是 为 了 和 后 面 要 讨 
论 的 高 效 定时 器 一 一 时 间 轮 和 时 间 堆 做 对 比 。 


11.2.1 基于 升序 链表 的 定时 天 


定时 器 通常 至 少 要 包 
绝对 时 间 ) 和 一 个 任务 回调 范 


行 时 需要 传 入 的 参数 ， 


为 容 右 来 囊 联 所 有 的 定时 器 ， 


如 的 指针 成 员 。 进 一 步 


含 两 个 成 员 : 


一 个 超时 时 间 (相对 时 间或 者 


数 。 有 的 时 候 还 可 能 包含 回调 函数 个 执 


以 及 是 否 重 局 定时 右 等 信息 。 如 末 使 用 链表 作 
则 每 个 定时 大 还 要 包含 指 癌 下 一 个 定时 


， 如 果 链 表 是 双 回 的 ， 则 每 个 定时 亏 还 需要 包 


含 指向 前 一 个 定时 器 的 指针 成 员 。 


代码 清单 11-2 实 现 了 一 个 稍 单 的 升序 定时 需 链 表 。 升 序 定时 胡 链 


表 将 其 中 的 定时 器 按照 超时 时 间 做 升序 排序 。 


#ifndef LST_ TIMER 
#define LST_ TIMER 
#ijnclude<time.h> 


代码 清单 11-2 升序 定时 句 链 表 


#define BUFFER SIZE 64 
class util timer;/* 前 向 声明 */ 


/* 用 户 数 据 结 构 ， 客 户 端 socket 地 址 、socket 文 件 描述 符 、 


struct client_ data 


sockaddr_in address; 
int sockfd; 

char buf[BUFFER_SIZE]; 
util timer*timer,; 


}; 

/* 定 时 器 类 */ 
class util timer 
{ 

public: 


util_ timer():prev(NULL),next(NULL){} 
public: 


time_t expire;/* 任 务 的 超时 时 间 ， 这 里 使 用 绝对 时 间 */ 


读 缓存 和 定时 器 */ 


void(*cb_func)(client_data* );/* 任 务 回调 函数 */ 


dn 
\ 
> 


/* 回 调 函 数 处 理 的 客户 数据 ， 由 定时 器 的 执行 者 传 并 
client data*user_data; 
util_timer*prev;/* 指 向 前 一 个 定时 器 * 
util timer*next;/* 指 向 下 一 个 定时 器 * 


}; 

/定时 器 链表 。 它 是 一 个 升序 、 双 向 链表 ， 且 带 有 头 结 点 和 尾 节 点 */ 
class sort timer_lst 

{ 

public: 

sort_timer_lst():head(NULL), tail(NULL){} 
/链表 被 销毁 时 ， 删 除 其 中 所 有 的 定时 器 */ 

~ Sort_timer_ lst() 

{ 

util timer*tmp=head; 

while(tmp) 

{ 

head=tmp- >next; 

delete tmp; 

tmp=head; 

} 


} 
/* 将 目标 定时 器 timer 添 加 到 链表 中 */ 


void add timer(util timer*timer) 


器 调 芳 数 */ 


/ 
/ 


if(!timer) 


{ 


return; 


} 

if(!head) 

{ 
head=tail=timer; 
return; 


} 

/* 如 果 目 标定 时 器 的 超时 时 间 小 于 当前 链表 中 所 有 定时 器 的 超时 时 间 ， 则 把 该 定时 器 插 
入 链表 头 部 ， 作 为 链表 新 的 头 世 点 。 否 则 就 需要 调用 重 载 本 数 
add _timer(util timer*timer,util timer*1lst_head)， 把 它 插入 链表 中 合适 的 位 
置 ， 以 保证 链表 的 升序 特性 */ 

if(timer->expire<head->expire) 

{ 

timer-~>next=head; 

head- >prev=timer; 

head=timer; 

return; 


add_timer (timer,head); 


} 
/* 当 某 个 定时 任务 发 生变 化 时 ， 调 整 对 应 的 定时 器 在 链表 中 的 位 置 。 这 个 函数 只 考虑 被 
调整 的 定时 器 的 超时 时 间 延 长 的 情况 ， 即 该 定时 器 需要 往 链表 的 尾部 移动 */ 


void adjust_timer(util timer*timer) 

{ 

if(!timer) 

{ 

return; 

} 

util_ timer*tmp=timer->next; 

/* 如 果 被 调整 的 目标 定时 器 处 在 链表 尾部 ， 或 者 该 定时 器 新 的 超时 值 仍然 小 于 其 下 一 个 
定时 器 的 超时 值 ， 则 不 用 调整 */ 

if(!'tmp||(timer->expire<tmp-~>expire)) 


return; 


} 

/* 如 果 目 标定 时 器 是 链表 的 头 节点 ， 则 将 该 定时 器 从 链表 中 取出 并 重新 插入 链表 */ 
if(timer==head) 

{ 

head=head- >next; 

head- >prev=NULL ; 

timer->next=NULL; 

add_timer(timer,head); 


} 

/* 如 果 目 标定 时 器 不 是 链表 的 头 节点 ， 则 将 该 定时 器 从 链表 中 取出 ， 然 后 插入] 
在 位 置 之 后 的 部 分 链表 中 */ 

else 

{ . . 

timer-~>prev-~>next=timer-~>next,; 

timer->next->prev=timer->prev; 

add_timer(timer,timer->next); 


} 
} 
/* 将 目标 定时 器 timer 从 链表 中 删除 */ 


void del timer(util timer*timer) 


t 


钼 


原来 所 


if(!timer) 

{ 

return; 

} 

/* 下 面 这 个 条 件 成 立 表示 链表 中 只 有 一 个 定时 器 ， 即 目标 定时 器 */ 

if((timer==head)cs (timer==tail)) 

{ 

delete timer; 

head=NULL ， 

tail=NULL; 

return; 

} 

/* 如 果 链 表 中 至 少 有 两 个 定时 器 ， 且 目标 定时 器 是 链表 的 头 结 点 ， 则 将 链表 的 头 结 点 重 
置 为 原 头 节点 的 下 一 个 节点 ， 然 后 删除 目标 定时 器 */ 


if(timer==head) 


{ 


head=head- >next ， 
head- >prev=NULL 
delete timer ， 
return 


} 

/* 如 果 链 表 中 至 少 有 两 个 定时 器 ， 且 目标 定时 器 是 链表 的 尾 结 点 ， 则 将 链表 的 尾 结 点 重 
置 为 原 尾 节点 的 前 一 个 节点 ， 然 后 删除 目标 定时 器 */ 

if(timer==tail) 

{ 

tail=tail->prev; 

tail->next=NULL; 

delete timer; 

return; 


} 

/* 如 果 目 标定 时 器 位 于 链表 的 中 间 ， 则 把 它 前 后 的 定时 器 串联 起 来 ， 然 后 删除 目标 定时 
BR*/ 

timer->prev->next=timer->next; 

timer->next->prev=timer->prev; 

delete timer; 


} 

/*SIGALRM 信 号 每 次 被 触发 就 在 其 信号 处 理 画 数 (如 果 使 用 统一 事件 源 ， 则 是 主 画 数 ) 
中 执行 二 次 tick 画 数 ， 以 处 理 链 表 上 到 期 的 任务 */ 

void tick() 


{ 

if(!head) 

{ 

return; 

} 

printf("timer tick\n"); 

time_t cur=time(NULL );/* 获 得 系统 当前 的 时 间 */ 

util_ timer*tmp=head; 

/* 从 闫 结 点 开始 依次 处 理 每 个 定时 器 ， 直 到 遇 到 一 个 尚未 到 期 的 定时 器 ， 这 就 是 定时 里 
的 核心 逻辑 */ 

while(tmp) 

{ 

/* 因 为 每 个 定时 器 都 使 用 绝对 时 间作 为 超时 值 ， 所 以 我 们 可 以 把 定时 器 的 超时 值 和 系统 
当前 上 时间， 比较 以 判断 定时 器 是 否 到 期 */ 

if(cur<tmp->expire) 

{ 

break; 

} 

/* 调 用 定时 器 的 回调 函数 ， 以 执行 定时 任务 */ 

tmp->cb_func(tmp->user_data); 

/* 执 行 完 定时 器 中 的 定时 任务 之 后 ， 束 将 它 从 链表 中 删除 ， 并 重 置 链表 头 结 点 */ 

head=tmp- >next; 

if(head) 

{ 


head- >prev=NULL; 
} 

delete tmp; 
tmp=head ; 

} 

} 


private: 


/* 一 个 重 载 的 辅助 画 数 ， 它 被 公有 的 add_timer 画 数 和 adjust_timer 函 数 调用 。 该 


函数 表示 将 目标 定时 器 timer 添 加 到 节点 lst_head 之 后 的 部 分 链表 中 */ 


void add timer(util timer*timer,util timer*]lst_head) 


util timer*prev=lst_head; 
util timer*tmp=prev->next; 


/* 遍 历 1st_head 节 点 之 后 的 部 分 链表 ， 直 到 找到 一 个 超时 时 间 大 于 


时 间 的 节点 ， 并 将 目标 定时 器 插入 该 节点 之 前 */ 
while(tmp) 


if(timer->expire<tmp-~>expire) 
{ 

prev- >next=timer; 
timer->next=tmp; 
tmp->>prev=timer; 
timer->prev=prev; 

break; 

} 

prev=tmp; 

tmp=tmp- >next,; 


标定 时 器 的 超时 


} 
/* 如 果 遍 历 完 ]st_head 节 点 之 后 的 部 分 链表 ， 仍 未 找到 超时 时 间 大 于 目标 定时 器 的 超 
时 时 间 的 节点 ， 则 将 目标 定时 器 插入 链表 尾部 ， 并 把 它 设置 为 链表 新 的 尾 节 点 */ 


if(!tmp) 


prev- >next=timer; 
timer->prev=prev; 
timer->next=NULL; 
tail=timer; 

} 

} 


private: 

util timer*head; 
util timer*tail; 
}; 

#endif 


为 了 便于 陪读， 我 们 将 实现 包 售 在 头 文件 中 。sort_timer lst 是 一 
个 升序 链表 。 其 核心 男 数 tick 相 当 于 一 个 心 搏 函 数 ， 它 每 隔 一 段 固 定 的 
时 间 惑 执行 一 次 ， 以 检测 并 处 理 到 期 的 任务 。 判 断定 时 任务 到 期 的 依 
据 是 定时 器 的 expire 值 小 于 当前 的 系统 时 间 。 从 执行 效率 来 看 ， 添 加 定 
时 器 的 时 间 复 光度 古 O(n)， 删 除 定时 器 的 时 间 复 洒 度 是 O(1)， 执 行 定 
时 任务 的 时 间 复 杂 度 是 O(1) 。 


11.2.2 ”处 理 非 活动 连接 


现在 我 们 考虑 上 述 升序 定时 器 链表 的 实际 应 用 一 处理 非 活动 连 
接 。 服 务 器 程序 通常 要 定期 处 理 非 活动 连接 : 给 客户 端 发 一 个 重 连 请 
求 ， 或 者 关闭 该 连接 ， 或 者 其 他 。Linux 在 内 核 中 提供 了 对 连接 是 否 处 
于 活动 状态 的 定期 检查 机 制 ， 我 们 可 以 通过 socket 选 项 KEEPALIVE 来 
激活 它 。 不 过 使 用 这 种 方式 将 使 得 应 用 程序 对 连接 的 管理 变 得 复杂 。 
因此 ， 我 们 可 以 考虑 在 应 用 层 实现 类 似 于 KEEPALIVE 的 机 制 ， 以 管理 
所 有 长 时 间 处 于 非 活动 状态 的 连接 。 比 如 ， 代 码 清单 11-3 利 用 alarm 画 
数 周期 性 地 触发 SIGALRM 信 号 ， 该 信号 的 信号 处 理 函 数 利用 管道 通知 
主 循环 执行 定时 器 链表 上 的 定时 任务 一 一 关闭 非 活动 的 连接 。 


代码 清单 11-3 ”关闭 非 活 动 连 接 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 


#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<signal.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#include<stdlib.h> 
#include<sys/epoll.h> 
#include<pthread.h> 
#include"lst_timer.h" 

#define FD_LIMIT 65535 

#define MAX_EVENT_NUMBER 1024 
#define TIMESLOT 5 

static int pipefd[2]; 

/* 利 用 代码 清单 11-2 中 的 升序 链表 来 管理 定时 器 */ 
static sort_ timer_lst timer_lst; 
static int epollfd=0; 

int setnonblocking(int fd) 


int old_ option=fcntl1l(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 
fcntili(fd,F_SETFL,new_option); 

return old_option; 


} 

void addfd(int epollfd,int fd) 

{ 

epoll event event; 
event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET; 
epoll ctl(epollfd,EPOLL_ CTL_ADD, fd, Sevent ) ， 
setnonblocking(fd); 

} 

void sig_handler(int sig) 

{ 

int save_errno=errno; 

int msg=sig; 

send(pipefd[1], (char*)&msg,1,o0); 
errno=save_errno; 


void addsig(int sig) 

{ 

struct sigaction Sa 
memset(&sa,'\0',sizeof(sa)); 
sa.sa_handler=sig_handler; 
sa.sa_flags|=SA_ RESTART; 
sigfillset(&%sa.sa mask); 


assert(sigaction(sig,&sa,NULL)!=-1); 


} 


void timer_handler() 


{ 

/* 定 时 人 处理 任务 ， 实 际 上 就 是 调用 tick 画 数 */ 

timer_lst.tick(); 

/* 因 为 一 次 alarm 调 用 只 会 引起 一 次 SIGALRM 信 号 ， 所 以 我 们 要 重新 定时 ， 以 不 断 触 发 
SIGALRM 信 和 号 */ 

alarm(TIMESLOT ) 


后 


} 
/* 定 时 器 回调 函数 ， 它 删除 非 活动 连接 socket 上 的 注册 事件 ， 并 关闭 之 */ 


void cb_func(client_data*user_data) 


epoll ctl(epollfd,EPOLL_ CTL_DEL, user_data-> sockfd, 0); 
assert(user_data); 

close(user_data->sockfd); 

printf("close fd%d\n",user_data->sockfd); 

} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 
bzero(&address, sizeof (address)); 
address.sin_ family=AF_INET; 
inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int epollfd=epoll create(5); 
assert(epollfd!=-1); 

addfd(epollfd,1istenfd); 
ret=socketpair(PF_UNIX,SOCK_STREAM, 0, pipefd ) ; 
assert(ret!=-1); 

setnonblocking(pipefd[1]); 
addfd(epollfd,pipefd[0]); 

/* 设 置信 号 处 理 范 数 */ 


addsig(SIGALRM ) ; 

addsig(SIGTERM); 

bool stop_server=false; 

client_data*users=new client_data[FD_LIMIT]; 

bool timeout=false; 

alarm(TIMESLOT);/* 定 时 */ 

while(!stop_server) 

{ 

int number=epoll] wait(epollfd,events,MAX_EVENT_NUMBER, -1); 

if((number <0)&&(errno!=EINTR)) 

{ 

printf("epoll failure\n"); 

break; 

} 

for(int i=0;i<number;i++) 

{ 

int sockfd=events[i].data.fd; 

/* 人 处 理 新 到 的 客户 连接 */ 

if(sockfd==listenfd)t{ 

struct sockaddr_in client address; 

socklen t client_addrlength=sizeof(client_address ) ; 

int connfd=accept(listenfd, (struct sockaddr*)&client address,& 
client_addrlength); 

addfd(epollfd,connfd); 

users[connfd].address=client_address; 

users[connfd].sockfd=connfd; 

/* 创 建 定 时 器 ， 设 置 其 回调 函数 与 超时 时 间 ， 然 后 绑 定 定时 器 与 用 户 数据 ， 最 后 将 定时 
器 添加 到 链表 timer_1st 中 */ 

Util timer*timer=new util timer; 

timer->user_data=&users[connfd]; 

timer->cb_func=cb_func; 

time_t cur=time(NULL); 

timer-~>expire=cur+3*TIMESLOT; 

users[connfd].timer=timer; 

timer_lst.add timer (timer); 


瑟 


} 

/* 处 理 信号 */ 

else if((sockfd==pipefd[0])&&(events[i].events&EPOLLIN)) 
{ 

int sig; 

char signals[1024]; 

ret=recv(pipefd[0],signals, sizeof(signals),o); 

if(ret==-1) 


//handle the error 
continue; 


else if(ret==0) 


{ 


continue; 


} 


else 


{ 


for(int i=0;i<ret;++i) 


{ 


switch(signals[i]) 


{ 


case SIGALRM : 


{ 


/x 用 timeout 变 


量 标记 有 定时 任务 需要 处 理 ， 但 不 立即 处 理 定 时 任务 。 


务 的 优先 级 不 是 很 高 我 们 优先 处 理 其 他 更 重要 的 任务 */ 
timeout=true; 
break; 


} 


case SIGTERM : 


{ 


stop_server=true; 


OO 


/* 处 理 


客户 连接 上 接收 到 的 数据 * 


/ 


else if(events[i].events&EPOLLIN) 


{ 


memset(users[sockfd].buf,'\0',BUFFER_SIZE); 
ret=recv(sockfd,users[sockfd].buf,BUFFER_SIZE-1, 0); 
printf("get%d bytes of client data%s from%d\n",ret, 
users[sockfd].buf,sockfd); 

util timer*timer=users[sockfd].timer; 

if(ret<0) 


/* 如 


发 生 


读 稀 


音 误 ， 则 关闭 连接 ， 


if(errno!=EAGAIN) 


cb_func(&users[sockfd]); 
if(timer) 


{ 


并 移 除 其 对 应 的 定时 器 */ 


timer_lst.del timer(timer); 


} 
} 
} 


else if(ret== 


9) 


IE 


对 方 已 


器 


NS 


cb ine( GUusers [SockTtd]) 


双关 闭 连接 ， 则 我 们 也 关闭 连接 ， 并 移 除 对 应 的 定时 器 */ 


因为 定时 任 


if(timer) 

{ 

timer_lst.del timer(timer); 

} 

} 

else 

{ 

/* 如 果菜 个 客户 连接 上 有 数据 可 读 ， 则 我 们 要 调整 该 连接 对 应 的 定时 器 ， 以 延迟 该 连接 
被 关闭 的 时 间 */ 

if(timer) 

{ 

time_t cur=time(NULL); 

timer-~>expire=cur+3*TIMESLOT; 

printf("adjust timer once\n"); 

timer_lst.adjust_timer(timer); 

} 

} 

} 


else 


{ 
//others 


} 


} 

/* 最 后 处 理 定时 事件 ， 因 为 I/0 事 伯 
能 精确 地 按照 预期 的 时 间 执 行 */ 

if(timeout) 

{ 

timer_handler(); 

timeout=false; 

} 


} 
close(listenfd); 


close(pipefd[1]); 
close(pipefd[0]); 
delete[ lusers; 
return 0; 


} 


有 更 高 的 优先 级 。 当 然 ， 这 样 做 将 导致 定时 任务 不 


11.3 IO 复 用 系统 调用 的 超时 参数 


Linux 下 的 3 组 WO 复 用 系统 调用 都 党 有 超时 参数 ， 因 此 它们 不 仅 能 
统一 处 理 信号 和 IO 事件 ， 也 能 统一 处 理 定时 事件 。 但 是 由 于 IO 复 用 
系统 调用 可 能 在 超时 时 间 到 期 之 前 就 返回 〈 有 IO 事件 发 生 ) ， 所 以 如 
采 我 们 要 利用 它们 来 定时 ， 融 需要 不 断 更 新 定时 参数 以 反映 剩余 的 时 
间 ， 如 代码 清单 11-4 所 示 。 


代码 清单 11-4 ”利用 WO 复 用 系统 调用 定时 


#define TIMEOUT 5000 
Int timeout=TIMEOUT; 
time_t start=time(NULL); 
time_t end=time(NULL); 
while(1) 


printf("the timeout is now%d mil-seconds\n",timeout); 
start=time(NULL); 

int number=epoll wait(epollfd,events,MAX_ EVENT_NUMBER, timeout); 
if((number <0)&&(errno!=EINTR)) 


printf("epoll failure\n"); 
break; 


ze 


} 

/* 如 果 epoll_wait 成 功 返 回 9， 则 说 明 超 时 时 间 到 ， 此 时 便 可 处 理 定时 任务 ， 并 重 置 
定时 时 间 */ 

if(number==0) 

{ 

timeout=TIMEOUT; 

continue; 

} 

end=time(NULL); 

/* 如 果 epol1l_wait 的 返回 值 大 于 0， 则 本 次 epol1l_wait 调 用 持续 的 时 间 是 (end- 
start)*1000 ms， 我 们 需要 将 定时 时 间 timeout 减 去 这 段 时 间 ， 以 获得 下 次 epo11_wait 
调用 的 超时 参数 */ 


timeout-=(end-start)*1000 

/* 重新 计算 之 后 的 timeout 值 有 可 能 等 于 @， 说 明 本 次 epo11_wajit 调 用 返回 时 ， 不 仅 
有 文件 描述 符 就 绪 ， 而 且 其 超时 时 间 也 刚好 到 达 ， 此 时 我 们 也 要 处 理 定时 任务 ， 并 重 置 定时 
时 间 */ 

if(timeout<=0) 

{ 

timeout=TIMEOUT; 


//handle connections 


上 


日 


11.4 ”高 性 能 定时 2 


11.4.1 时 间 轮 


前 文 所 到 ， 基 于 排序 链表 的 定时 器 存在 一 个 问题 : 添加 定时 器 的 
效率 仿 低 。 下 面 我 们 要 讨论 的 时 间 轮 解决 了 这 个 问题 。 一 种 和 商 单 的 时 
间 轮 如 图 11-1 所 示 。 


定时 器 


| 定时 器 上 >- 定时 器 


图 11-1 人 简单 的 时 间 轮 


图 11-1 所 示 的 时 间 轮 内 ， 〈 实 线 ) 指针 指向 轮子 上 的 一 个 槽 
(slot) 。 它 以 恒定 的 速度 顺 时 针 转 动 ， 每 转动 一 步 束 指向 下 一 个 模 
(虚线 指针 指向 的 槽 ) ， 每 次 转动 称 为 一 个 滴答 (tick) 。 一 个 滴答 的 
时 间 称 为 时 间 轮 的 槽 间隔 si (slot interval) ， 它 实际 上 就 是 心 搏 时 间 。 
该 时 间 轮 共有 N 个 权 ， 因 此 它 运转 一 周 的 时 间 古 N*si。 每 个 模 指 癌 一 条 
定时 天 链表 ， 每 条 链表 上 的 定时 郁 具 有 相同 的 特征 : 它们 的 定时 时 间 


相 甜 N*si 的 整数 倍 。 时 间 轮 正 是 利用 这 个 关系 将 定时 恬 散 列 到 不 同 的 
链表 中 。 假 如 现在 指针 指 回 槽 cs， 我 们 要 添加 一 个 定时 时 间 为 ti 的 定时 
器 ， 则 该 定时 器 将 被 插入 槽 ts (timer slot) 对 应 的 链表 中 : 


ts= (cs+ (ti/si)) %N (ls]) 


基于 排序 链表 的 定时 器 使 用 唯一 的 一 条 链表 来 管理 所 有 定时 器 ， 
所 以 插入 操作 的 效率 随 着 定时 器 数目 的 增多 而 降低 。 而 时 间 轮 使 用 哈 
项 表 的 思想 ， 将 定时 右 散 列 到 不 同 的 链表 上 。 这 样 每 条 链表 上 的 定时 
器 数目 都 将 明显 少 于 原来 的 排序 链表 上 的 定时 人 硕 数 目 ， 插 入 操作 的 效 
率 基本 不 受 定时 右 数 目的 影响 。 


很 显然 ， 对 时 间 轮 而 言 ， 要 提高 定时 精度 ， 就 要 使 si 值 足够 小 ， 要 
提高 执行 效率 ， 则 有 要求 N 值 足够 大 。 


独 11-1 描 述 的 是 一 种 简单 的 时 间 轮 ， 因 为 它 只 有 一 个 轮子 。 而 复杂 
的 时 间 轮 可 能 有 多 个 轮子 ， 不 同 的 轮子 拥有 不 同 的 粒度 。 相 邻 的 两 个 
轮子 ， 精 度 高 的 转 一 圈 ， 精 度 低 的 仅 往 前 移动 一 槽 ， 残 像 水 表 一 样 。 
下 面 将 按照 图 11-1 来 编写 一 个 较为 简单 的 时 间 轮 实现 代码 ， 如 代码 清单 
11-5 所 示 。 


代码 清单 11-5 时间 轮 


#ifndef TIME WHEEL TIMER 
#define TIME WHEEL TIMER 
#ijnclude<time.h> 


#include<netinet/in.h> 
#include< stdio.h> 
#define BUFFER_SIZE 64 
class tw timer; 

/* 绑 定 socket 和 定时 器 */ 
struct client_data 


sockaddr_in address; 
int sockfd; 

char buf[BUFFER_SIZE]; 
tw_timer*timer; 


}; 

/* 定 时 器 类 */ 

class tw timer 

{ 

public: 

tw_timer(int rot,int ts) 

:Next (NULL),Pprev(NULL),rotation(rot),time_slot(ts){} 
public: 

int rotation;/* 记 录 定 时 器 在 时 间 轮 转 多 少 圈 后 生效 */ 

int time_slot;/* 记 录 定 时 器 属于 时 间 轮 上 哪个 模 (对 应 的 链表 ， 下 同 ) */ 
void(*cb_func) (client_data* );/* 定 时 器 回调 画 数 */ 
client_data*user_data;/* 客 户 数 据 */ 

tw_ timer*next; /* 指 向 下 一 个 定时 器 */ 

tw_timer*prev;/* 指 向 前 一 个 定时 器 */ 

}; 

class time_ wheel 

{ 

public: 

time_wheel( ):cur_slot(0) 


for(int i=0;i<N;++i) 


{ 
slots[I]=NULL;A* 初 始 化 每 个 槽 的 头 结 点 */ 
} 
} 


~time wheel() 


{ 

/* 遍 历 每 个 模 ， 并 销 贤 其 中 的 定时 器 */ 
for(int i=0;i<N;++1i) 

{ 

tw_timer*tmp=slots[i]; 
while(tmp) 


slots[i]=tmp-~>next; 
delete tmp; 
tmp=slots[i]; 

} 


} 


} 
/* 根 据 定时 值 timeout 创 建 一 个 定时 器 ， 并 把 它 插 入 合适 的 槽 中 */ 
tw _ timer*add timer(int timeout ) 


小 


if(timeout<0) 
return NULL; 


int ticks=0; 

/* 下 面 根据 待 插 入 定时 器 的 超时 值 计算 它 将 在 时 间 轮 转动 多 少 个 鸿 答 后 被 触发 ， 并 将 该 
滴答 数 存 储 于 变量 ticks 中 。 如 果 待 插入 定时 器 的 超时 值 小 于 时 间 轮 的 槽 间隔 SI， 则 将 
ticks 向 上 折合 为 1， 否 则 就 将 ticks 向 下 折合 为 timeout/SI*/ 

if(timeout<SI) 

{ 

ticks=1; 

} 

else 

{ 

ticks=timeout/SI; 

} 

/* 计 算 待 插入 的 定时 器 在 时 间 轮 转动 多 少 圈 后 被 触发 */ 

int rotation=ticks/N; 

/* 计 算 待 插入 的 定时 器 应 该 被 插入 哪个 权 中 */ 

int ts=(cur_slot+(ticks%N))%N; 

/* 创 建新 的 定时 器 ， 它 在 时 间 轮 转动 rotation 圈 之 后 被 触发 ， 且 位 于 第 ts 个 模 上 */ 

tw_timer*timer=new tw_timer(rotation, ts); 

/* 如 果 第 ts 个 槽 中 尚 无 任何 定时 器 ， 则 把 新 建 的 定时 器 插入 其 中 ， 并 将 该 定时 器 设置 为 
该 槽 的 头 结 点 */ 

if(!slots[ts]) 

{ 


printf("add timer,rotation is%d,ts is%d,cur_slot 
is%d\n",rotation, ts,cur_slot); 
slots[ts]=timer; 


} 

/* 否 则 ， 将 定时 器 插入 第 ts 个 槽 中 */ 
else 

{ 


timer->next=slots[ts]; 
slots[ts]->prev=timer; 
slots[ts]=timer; 

} 


return timer; 


} 
/* 删 除 目 标定 时 器 timer*/ 
void del timer(tw timer*timer) 


if(!timer) 


FS 往生 


{ 


return 


} 


int ts=timer->time slot,; 


/*slots[ts] 是 目标 定时 器 所 在 槽 的 头 结 点 。 如 果 目 标定 时 器 束 是 该 头 结 点 ， 则 


上 且 . 宛 


ts 个 楼 的 头 结 点 */ 


if(timer==slots[ts]) 


slots[ts]=slots[ts]->next; 


if(slots[ts]) 


slots[ts]->prev=NULL; 


} 


delete timer; 


} 


else 


{ 


timer->prev->next=timer->next; 


if(timer-~>next) 


{ 


timer->next->prev=timer->prev; 


} 


delete timer; 


} 


} 

/*SI 时 间 到 后 ， 调 
void tick() 

{ 


该 函数 ， 时 间 轮 向 前 深 动 一 个 槽 的 间隔 */ 


tw_timer*tmp=slots[cur_slot];/* 取 得 时 间 轮 上 当前 槽 的 头 结 点 */ 


printf("current 
while(tmp) 


slot is%d\n",cur_slot); 


printf("tick the timer once\n"); 
/* 如 果 定 时 器 的 rotation 值 大 于 9， 则 它 在 这 一 轮 不 起 作用 */ 
if(tmp->rotation>0) 


{ 


tmp->rotation-- 
tmp=tmp-~>next,; 


} 


了 


/* 否 则 ， 说 明定 时 器 
else 


{ 


已 经 到 期 ， 于 是 执行 定时 任务 ， 然 后 删除 该 定时 器 */ 


tmp->cb_func(tmp->user_data); 
if(tmp==slots[cur_slot]) 


printf("delete header in cur_slot\n"); 
slots[cur_slot]=tmp->next; 


delete tmp; 


需 : 


十 


if(slots[cur_slot]) 


slots[cur_slot]->prev=NULL; 
} 

tmp=slots[cur_slot]; 

} 

else 

{ 
tmp-~>prev->next=tmp- >next,; 
if(tmp-~>next) 


tmp-~>next-~>prev=tmp-~>prev; 
} 

tw_timer*tmp2=tmp-~>next; 
delete tmp; 

tmp=tmp2; 


} 

cur_slot=++cur_slot%N;/* 更 新 时 间 轮 的 当前 柳 ， 以 反映 时 间 轮 的 转动 */ 
} 

private: 

/* 时 间 轮 上 槽 的 数目 */ 

static const int N=60; 

/* 每 1 s 时 间 轮 转动 一 次 ， 即 槽 间隔 为 1 s*/ 

static const int SI=1; 
/* 时 间 轮 的 模 ， 其 ' 每 个 元 素 指向 一 个 定时 器 链表 ， 链表 无 序 */ 
tw_timer*slots[N]; 

int cur_slot;/* 时 间 轮 的 当前 柳 */ 


}; 
#endif 


可 见 ， 对 时 间 轮 而 言 ， 添 加 一 个 定时 器 的 时 间 复 杂 度 是 O (1) ， 
删除 一 个 定时 器 的 时 间 复 杂 度 也 是 O (1) ， 执 行 一 个 定时 器 的 时 间 复 
杂 度 是 O(n) 。 但 实际 上 执行 一 个 定时 器 任务 的 效率 要 比 O (n) 好 得 
多 ， 因 为 时 间 轮 将 所 有 的 定时 瑚 散 列 到 了 不 同 的 链表 上 “。 时 间 轮 的 模 
越 多 ， 等 价 于 散 列 表 的 入 口 (entry) 越 多 ， 从 而 每 条 链表 上 的 定时 器 
数量 越 少 。 此 外 ， 我 们 的 代码 仅 使 用 了 一 个 时 间 轮 。 当 使 用 多 个 轮子 
来 实现 时 间 轮 时 ， 执 行 一 个 定时 器 任务 的 时 间 复 杂 度 将 接近 O (1) 。 


读者 不 妨 把 代码 清单 11-3 稍 做 修改 ， 用 时 间 轮 来 代 蔡 排序 链表 ， 以 查看 
时 间 轮 的 工作 方式 和 效率 。 


11.4.2 ”时 间 堆 


前 面 讨论 的 定时 方案 都 苹 以 固定 的 频率 调用 心 捕 范 数 tick， 并 在 其 
中 依次 检测 到 期 的 定时 器 ， 然 后 执行 到 期 定时 器 上 的 回调 函数 。 设 计 
定时 亏 的 另外 一 种 思路 是 : 将 所 有 定时 套 中 超时 时 间 最 小 的 一 个 定时 
亏 的 超时 值 作为 心 搏 间隔 。 这 样 ， 一 旦 心 搏 函 数 tick 补 调用 ， 超 时 时 间 
最 小 的 定时 紫 必 然 到 期 ， 我 们 就 可 以 在 tick 函 数 中 处 理 该 是 时 紫 。 然 
后 ， 再 次 从 剩余 的 定时 器 中 找 出 超时 时 间 最 小 的 一 个 ， 并 将 这 段 最 小 
时 间 设 置 为 下 一 次 心 搏 间隔 。 如 此 反复 ， 就 实现 了 较为 精确 的 定时 。 


最 小 堆 很 适合 处 理 这 种 定时 方案 。 最 小 堆 十 指 每 个 节操 的 值 都 小 
于 或 等 于 其 子 市 护 的 值 的 完全 二 义 树 。 图 11-2 给 出 了 一 个 具有 6 个 元 素 
的 最 小 堆 。 


图 11-2 最 小 堆 


树 的 基本 操作 走 插 入 节点 和 删除 斑点 。 对 最 小 堆 而 言 ， 它 们 都 很 
简单 。 为 了 将 一 个 元 素 X 捅 入 最 小 堆 ， 我 们 可 以 在 树 的 下 一 个 空闲 位 置 
创建 一 个 空余。 如 有 果 X 可 以 放 在 空 穴 中 而 不 破坏 堆 序 ， 则 插入 完成 。 否 
则 天 执行 上 虑 操作 ， 即 交换 空 从 和 它 的 父 节 点 上 的 元 素 。 不 断 执行 上 
述 过 程 ， 直 到 X 可 以 被 放 入 空余， 则 插入 操作 完成 比如， 我 们 要 往 图 
11-2 所 示 的 最 小 堆 中 捅 入 值 为 14 的 元 系 ， 则 可 以 按照 独 11-3 所 示 的 步骤 
来 操作 。 


图 11-3 最 小 堆 的 插入 操作 
a) 创建 空 从 b) 上 虚 一 次 c) 上 虑 二 次 


最 小 堆 的 删除 操作 指 的 是 删除 其 根 万 点 上 的 元 系 ， 并 且 不 破坏 堆 
序 性 质 。 执 行 删除 操作 时 ， 我 们 需要 移 在 根 节 点 处 创建 一 个 空 从 。 由 
于 堆 现 在 少 了 一 个 元 素 ， 因 此 我 们 可 以 把 堆 的 最 后 一 个 元 素 X 移 动 到 该 
堆 的 某 个 地 方 。 如 果 X 可 以 被 放 入 空 穴 ， 则 删除 操作 完成 。 否 则 就 执行 
下 虑 操作 ， 即 交换 空 穴 和 它 的 两 个 儿子 节点 中 的 较 小 者 。 不 断 进行 上 
述 过 程 ， 直 到 X 可 以 被 放 入 至 穴 ， 则 删除 操作 完成 比如， 我们 要 对 疼 
11-2 所 示 的 最 小 堆 执行 删除 操作 ， 则 可 以 按照 图 11-4 所 示 的 步骤 来 执 


一 


休 。 


LL 
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图 11-4 最 小 堆 的 删除 操作 


a) 在 根 节 点 处 创建 空 信 b) 下 虑 一 次 c 下 虑 二 次 


由 于 最 小 堆 是 一 种 完全 二 又 树 ， 所 以 我 们 可 以 用 数组 来 组 织 其 中 
的 元 素 。 比 如 ， 图 11-2 所 示 的 最 小 堆 可 以 用 图 11-5 所 示 的 数组 来 表示 。 
对 于 数组 中 的 任意 一 个 位 置 i 上 的 元 素 ， 其 左 儿 子 节点 在 位 置 2i+1 上 ， 
其 右 儿子 节点 在 位 置 2i:+2 上 ， 其 父 节 点 则 在 位 置 [ (i-1) /2] (i>0) 
上 。 与 用 链表 来 表示 堆 相 比 ， 用 数组 表示 堆 不 仅 节省 空间 ， 而 且 更 容 
易 实 现 堆 的 插入 、 删 除 等 操作 Sl 。 


图 11-5 最 小 堆 的 数组 表示 


假设 我 们 已 经 有 一 个 包含 N 个 元 素 的 数组 ， 现 在 要 把 它 初始 化 为 一 
个 最 小 堆 。 那 么 最 简单 的 方法 是 : 初始 化 一 个 空 堆 ， 然 后 将 数组 中 的 
每 个 元 素 插入 该 堆 中 。 不 过 这 样 做 的 效率 偏 低 。 实 际 上 ， 我 们 只 需要 
对 数组 中 的 第 [ (N-1) /2]~0 个 元 素 执行 下 虑 操作 ， 即 可 确保 该 数组 构 
成 一 个 最 小 堆 。 这 是 因为 对 包含 N 个 元 素 的 完全 二 又 树 而 言 ， 它 具有 
[ (N-1) /2] 个 非 叶 子 节 点 ， 这 些 非 叶子 节点 正 是 该 完全 二 又 树 的 第 0~ 
[ (N-1) 72] 个 节点 。 我 们 只 要 确保 这 些 非 叶子 节点 构成 的 子 树 都 具有 
堆 序 性 质 ， 整 个 树 就 具有 堆 序 性 质 。 


我 们 称 用 最 小 堆 实现 的 定时 器 为 时 间 堆 。 代 码 清单 11-6 给 出 了 一 种 
时 间 堆 的 实现 ， 其 中 ， 最 小 堆 使 用 数组 来 表示 。 


代码 清单 11-6 ”时 间 堆 


#ifndef MIN_HEAP 

#define MIN_HEAP 
#include<iostream> 
#include<netinet/in.h> 
#include<time.h> 

using std::exception; 
#define BUFFER_SIZE 64 
class heap_timer;/* 前 问 声 明 */ 
/* 绑 定 socket 和 定时 器 */ 

struct client_data 


sockaddr_in address; 
int sockfd; 

char buf[BUFFER_SIZE]; 
heap_timer*timer; 


}; 

/* 定 时 器 类 */ 

class heap_timer 

{ 

public: 
heap_timer(int delay) 


{ 
expire=time(NULL)+delay; 


public: 

time_t expire;/* 定 时 器 生效 的 绝对 时 间 */ 

void(*cb func)(client_datax);Vx* 定 时 器 的 回调 函数 */ 
client_data*user_data;/* 用 户 数据 */ 


}; 
/* 时 间 堆 类 */ 
class time_heap 


{ 
public: 


/* 构 造 画 数 之 一 ， 初 始 化 一 个 大 小 为 cap 的 空 堆 */ 
time_heap(int cap)throw(std::exception):capacity(cap),cur_size(0) 


*/ 


array=new heap_timer*[capacity];/* 创 建 堆 数 台 
if(!array) 


{ 


throw std: :exception( ) ， 


} 

for(int i=0;i<capacity;++i) 

{ 

array[i]=NULL; 

} 

} 

/构造 函数 之 二 ， 用 已 有 数组 来 初始 化 堆 */ 


time_heap(heap_timer**init_array,int size,int capacity)throw 
(std::exception):cur_size(size),capacity(capacity) 
{ 


if(capacity< size) 


{ 

throw std::exception(); 

} 

array=new heap_timer*[capacity];/* 创 建 堆 数 组 */ 
if(!array) 


throw std::exception(); 


} 


for(int i=0;i<capacity;++i) 
{ 
array[i]=NULL; 


if(size!=0) 


{ 
/* 初 始 化 堆 数组 */ 


for(int i=0;i< size;++i) 


array[i]=init_array[i]; 

} 

for(int i=(cur_size-1)/2;i>=0;--i) 

{/* 对 数组 中 的 第 [ (cur_size-1)/2]~0 个 元 素 执行 下 虚 操 作 */ 
percolate_down(i); 


} 
} 
} 
/销毁 时 间 堆 */ 


~time_heap() 


for(int 1I=0;1I<cur_ Size;++I) 


{ 


delete array[i]; 


} 
delete[]array; 


} 
public: 


/* 添 加 目标 定时 器 tijmer*/ 


void add_ timer(heap_timer*timer)throw(std: 


if(!timer) 


{ 


return 


} 


:exception) 


if(cur_size>=capacity)/* 如 果 当 前 堆 数 组 容量 不 够 ， 则 将 其 扩大 1 倍 */ 


resize( ); 


} 


/* 新 插入 了 一 个 元 素 ， 当 前 堆 大 小 加 1，hole 是 妆 


int hole=cur_sizet+; 
int parent=0; 


穴 的 位 置 */ 


/* 对 从 空 穴 到 根 节点 的 路 径 上 的 所 有 节点 执行 上 虑 操作 */ 


for(;hole>0;hole=parent) 


{ 
parent=(hole-1)/2; 


if(array[parent]->expire<=timer->expire) 


break; 
array[hole]=array[parent]; 


array[hole]=timer， 


} 
/* 删 除 目标 定时 器 timer*/ 
void del timer(heap_timer*timer) 


if(!timer) 


return; 


} 
/仅仅 将 目标 定时 器 的 回调 函数 设置 为 宝 ， 即 所 谓 的 延迟 4 


时 器 造成 的 开销 ， 但 这 样 做 容易 使 堆 数组 膨胀 */ 
timer->cb_func=NULL; 
} 
/* 获 得 堆 顶 部 的 定时 器 */ 
heap_timer*top()const 


{ 
so ) ) 


return NULL ; 
} 


return array[0]; 


3? 
/* 删 除 堆 顶部 的 定时 器 */ 


void pop_timer() 


销毁 。 这 ， 


正 删 除 该 定 


{ 
eb 
return; 

} 
if(array[0]) 
{ 


delete array[0]; 
/* 将 原来 的 堆 顶 元 素 替换 为 堆 数 外 


日 


array[0]=array[--cur_sizel]; 
percolate_down(0);/* 对 新 的 堆 顶 元 素 执 行 下 虚 操 作 */ 


} 


} 
/* 心 捕 画 数 */ 
void tick() 
{ 


heap_timer*tmp=array[0]; 


! 最 后 一 个 元 素 */ 


time_t cur=time(NULL);/* 循 环 处 理 堆 中 到 期 的 定时 器 */ 


while( !empty()) 
{ 


if(!tmp) 
{ 


break; 


} 


/* 如 果 堆 顶 定时 器 没 到 期 ， 则 退出 循环 */ 


if(tmp->expire>cur) 


{ 


break; 


} 


/* 否 则 束 执 行 堆 项 定时 器 中 的 任务 */ 


if(array[0]->cb_func) 


array[0]->cb_func(array[0]->user_data); 


} 
/将 堆 顶 元 素 删除 ， 同 时 生成 新 的 堆 顶 定时 器 (array[9]) */ 


pop_timer(); 
tmp=array[0]; 
} 


bool empty()const{return cur_size==0;} 


private: 


/* 最 小 堆 的 下 虑 操作 ， 它 确保 堆 数 组 中 以 第 hole 个 节点 作为 根 的 子 树 拥有 最 小 堆 性 质 */ 


void percolate_ down(int hole) 


{ 


heap_timer*temp=array[holel]; 


int child=0; 


for(;((hole*2+1)<=(cur_size-1));hole=child) 


child=hole*2+1; 

if((child<(cur_size-1))&&(array[child+1]->expire< 
array[child]-~>expire)) 

++child; 

if(array[child]->expire<temp->expire) 


{ 
array[hole]=array[child]; 
} 


else 


{ 


break; 


} 


array[hole]=temp; 


} 
/将 堆 数组 容量 扩大 1 倍 */ 


void resize()throw(std::exception) 


heap_timer**temp=new heap_timer*[2*capacity]， 
for(int i=0;i<2*capacity;++i) 

{ 

temp[i]=NULL; 


} 

if(!temp) 

{ 

throw std::exception(); 

} 

capacity=2*capacity; 

for(int i=0;i<cur_size;++i) 
{ 

temp[i]=array[i]; 

} 

delete[ Jarray; 

array=temp; 

} 

private: 
heap_timer**array;/* 堆 数组 */ 
int capacity;/* 堆 数组 的 容量 */ 
int cur_size;/* 堆 数组 当前 包含 元 素 的 个 数 */ 
}; 

#endif 


由 代码 请 单 11-6 可 见 ， 对 时 间 堆 而 言 ， 添 加 一 个 定时 融 的 时 间 复 杂 
度 是 O (lgn) ， 删 除 一 个 定时 器 的 时 间 复 杂 度 是 O (1) ， 执 行 一 个 定 
时 器 的 时 间 复 杂 度 是 O (1) 。 因 此 ， 了 时间 堆 的 效率 是 很 高 的 。 


ae 


第 12 章 ”高 性 能 VO 框 架 库 Libevent 

前 面 我 们 利用 三 章 的 篇 幅 较为 细致 地 讨论 了 Linux 服 务 器 程序 必须 
处 理 的 三 类 事件 ，1/O 事 件 、 信 号 和 定时 事件 。 在 处 理 这 三 类 事件 时 我 
们 通常 需要 考虑 如 下 三 个 问题 : 


口 统一 事件 源 。 很 明显 ， 统 一 处 理 这 三 类 事件 既 能 使 代码 简单 易 
懂 ， 叉 能 避免 一 些 潜 在 的 逻辑 和 错误。 前面 我 们 已 经 讨论 了 实现 统一 事 
件 源 的 一 般 方法 一 一 利用 1/O 复 用 系统 调用 来 管理 所 有 事件 。 


口 可 移植 性 。 不 同 的 操作 系统 具有 不 同 的 VO 复 用 方式 ， 比 如 
Solaris 的 devpoll 文 件 ，FreeBSD 的 kqueue 机 制 ，Linux 的 epoll 系 列 系统 
调用 。 


口 对 并 发 编程 的 文 持 。 在 多 进程 和 多 线程 环境 下 ， 我 们 需要 考虑 
各 执行 实体 如 何 协同 处 理 客户 连接 、 信 号 和 定时 船 ， 以 避免 苋 态 条 
人 


所 笠 的 是 ， 开 源 社 区 提供 了 诸多 优秀 的 MO 框架 库 。 它 们 不 仅 解决 
了 上 述 问 题 ， 让 开发 者 可 以 将 精力 完全 放 在 程序 的 逻辑 上 ， 而 且 稳定 
性 、 人 性 能 等 各 方面 都 相当 出 色 。 比 如 ACE、ASIO 和 Libevent。 本 章 将 
介绍 其 中 相对 轻 量 级 的 Libevent 框 架 库 。 


12.1 IO 框架 库 概 述 


IO 框架 库 以 库 函 数 的 形式 ， 封 装 了 较为 底层 的 系统 调用 ， 给 应 用 
程序 提供 了 一 组 更 便于 使 用 的 接口 。 这 些 库 函 数 往往 比 程序 员 自 己 实 
现 的 同样 功能 的 函数 更 合理 、 更 高 效 ， 且 更 健壮 。 因 为 它们 经 受 住 了 
真实 网 络 环境 下 的 高 压 测 试 ， 以 及 时 间 的 考验 。 


各 种 1/O 框 架 库 的 实现 原理 基本 相似 ， 要 人 么 以 Reactor 模 式 实现 ， 要 
么 以 Proactor 模 式 实现 ， 要 么 同时 以 这 两 种 模式 实现 。 举 例 来 说 ， 基 于 
Reactor 模 式 的 VO 框架 库 包 含 如 下 几 个 组 件 ， 句柄 (Handle) 、 事 件 多 
路 分 发 器 (EventDemultiplexer) 、 事 件 处 理 器 (EventHandler) 和 具体 
的 事件 处 理 器 (ConcreteEventHandler) 、Reactor。 这 些 组 件 的 关系 如 
图 12-1 所 示 [ 。 


+handle_events () :void 


+get_handle () :Handle 


Handle +handle_event() :void 


+register_handler () :void 


1 
<<uses>> ! notifies 
1 


EventDemultiplexer 


ConcreteEventHandler 


ET > 
+remove_event() :void +handle_event() :void 


+demultiplex () :void 


图 12-1 IO 框架 库 组 件 


1. 句 柄 


IO 框架 库 要 处 理 的 对 象 ， 即 IO 事件 、 信 号 和 定时 事件 ， 统 一 称 大 
事件 源 。 一 个 事件 源 通 单 和 一 个 句柄 绑 定 在 一 起 。 句 柄 的 作用 是 ， 当 
内 核 检测 到 就 绪 事 件 时 ， 它 将 通过 句柄 来 通知 应 用 程序 这 一 事件 。 在 
Linux 环 境 下 ，LIO 事 件 对 应 的 句柄 生 文 件 描述 符 ， 信 和 号 事件 对 应 的 句柄 


忠 古 信号 值 。 


2. 事 件 多 路 分 发 右 


事件 的 到 来 是 随机 的 、 异 步 的 。 我 们 无 法 预知 程序 何 时 收 到 一 个 
客户 连接 请 求 ， 又 亦 或 收 到 一 个 暂停 信号 。 所 以 程序 需要 循环 地 等 待 
并 处 理事 件 ， 这 就 是 事件 循环 。 在 事件 循环 中 ， 等 待 事件 一 般 使 用 IO 
复 用 技术 来 实现 。1O 框 染 库 一 般 将 系统 文 持 的 各 种 WO 复 用 系统 调用 封 
妆 成 统一 的 接口 ， 称 为 事件 多 路 分 发 左 。 事 件 多 路 分 发 硕 的 demultiplex 
方法 是 等 每 事件 的 核心 画 数 ， 其 内 部 调用 的 是 select、poll 、epoll_wait 
等 范 数 。 
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此 外 ， 事 件 多 路 分 发 器 还 需要 实现 register_event 和 remove_event 方 
法 ， 以 供 调 用 者 往事 件 多 路 分 发 器 中 添加 事件 和 从 事件 多 路 分 发 器 中 
删除 事件 。 


3. 事 件 处 理 硕 和 具体 事件 处 理 絮 


事件 处 理 器 执行 事件 对 应 的 业务 逻辑 。 它 通常 包含 一 个 或 多 个 
handle_event 回 调 函 数 ， 这 些 回调 函数 在 事件 循环 中 被 执 行 。IO 框 以 库 
提供 的 事件 处 理 器 通常 是 一 个 接口 ， 用 户 需 要 继承 它 来 实现 上 自己 的 事 
件 处 理 絮 ， 即 具体 事件 处 理 右 。 因 此 ， 事 件 处 理 絮 中 的 回调 函数 一 般 
被 声明 为 虚 函 数 ， 以 支持 用 户 的 扩展 。 


此 外 ， 事 件 处 理 需 一 般 还 提供 一 个 get_handle 方 法 ， 它 返回 与 该 事 
件 处 理 囊 关联 的 句柄 。 那 么 ， 事 件 处 理 囊 和 句柄 有 什么 关系 ? 当 事 件 
多 路 分 发 侨 检 测 到 有 事件 发 生 时 ， 它 是 通过 句柄 来 通知 应 用 程序 的 。 
因此 ， 我 们 必须 将 事件 处 理 硕 和 句柄 绑 定 ， 才 能 在 事件 发 生 时 获取 到 
正确 的 事件 处 理 囊 。 


4.Reactor 
Reactor 是 IO 框架 库 的 核心 。 它 提供 的 几 个 主要 方法 是 : 


口 handle_events。 该 方法 执行 事件 循环 。 它 重复 如 下 过 程 ， 等 待 事 
件 ， 然 后 依次 处 理 所 有 就 绪 事 件 对 应 的 事件 处 理 器 。 


Dregister_handler。 该 方法 调用 事件 多 路 分 发 器 的 register_event 方 
法 来 往事 件 多 路 分 发 强 中 注册 一 个 事件 。 


Dremove_handler 。 该 方法 调用 事件 多 路 分 发 左 的 remove_event 方 
法 来 删除 事件 多 路 分 发 磺 中 的 一 个 事件 。 


图 12-2 总 结 了 IO 框架 库 的 工作 时 序 。 


Application Reactor EventDemultiplexer ConcreteEventHandler 


register_handler () 
get_handler () 


Tegister_event () 


handle_events () 


demultiplex () 


handle ready 


handle_event () 


图 12-2 LO 框架 库 的 工作 时 序 图 


12.2 ”Libevent 源 码 分 析 


Libevent 是 开源 社区 的 一 款 高 性 能 的 /O 框 架 库 ， 其 学 习 者 和 使 用 
者 众多 。 使 用 Libevent 的 著名 案例 有 : 高 性 能 的 分 布 式 内 存 对 象 缓存 
软件 memcached，Google 浏 览 器 Chromium 的 Linux 版 本 。 作 为 一 个 IO 
框架 库 ，Libevent 具 有 如 下 特点 : 


口 跨 平 台 文 持 。Libevent 文 持 Linux、UNIX 和 Windows。 


口 统一 事件 源 。Libevent 对 VO 事 件 、 信 号 和 定时 事件 提供 统一 的 
处 理 。 


口 线程 安全 。Libevent 使 用 libevent_pthreads 库 来 提供 线程 安全 支 


口 基于 Reactor 模 式 的 实现 。 


一 节 中 我 们 将 简单 地 人 研究 一 下 Libevent 源 代码 的 主要 部 分 。 分 
析 它 除了 可 以 更 好 地 学 习 网 络 编程 外 ， 还 有 如 下 好 处 : 


口 学 习 编写 一 个 产品 级 的 函数 库 要 考虑 哪些 细 广 。 


口 提 高 C 语 言 功 后 。Libevent 源 码 中 使 用 了 大 量 的 函数 指针 ， 用 C 
语言 实现 了 多 态 机 制 ， 并 提供 了 一 些 基 础 数据 结构 的 高 效 实现 ， 比 如 


双 癌 链表 、 最 小 堆 等 。 


Libevent 的 官方 网 站 是 http://libevent.org/， 其 中 提供 Libevent 源 代 
码 的 下 载 ， 以 及 学 习 Libevent 框 架 库 的 第 一 手 文档 ， 并 且 源 码 和 文档 
的 更 新 也 较为 频繁 。 笔 者 写作 此 书 时 使 用 的 Libevent 版 本 是 该 网 站 于 
2012 年 5 月 3 日 发 布 的 2.0.19 。 


122 1 = 小 实 全 


分 析 一 于 软件 的 源 代码 ， 最 简单 有 效 的 方式 是 从 使 用 入 手 ， 这 样 
才能 从 整体 上 把 握 该 软件 的 逻辑 结构 。 代 码 清单 12-1 是 使 用 Libevent 库 
实现 的 一 个 “Hello World” 程 序 。 


代码 清单 12-1 Libevent 实 例 


#include<sys/signal.h> 

#include<event.h> 

void signal cb(int fd,short event,void*argc) 

{ 

struct event_base*base=(event_base* )argc; 

struct timeval delay={2,0}; 

printf("Caught an interrupt signal;exiting cleanly in two 
seconds...\n"); 

event_base_loopexit (base, &delay); 


void timeout_ cb(int fd,short event,void*argc) 
printf("timeout\n"); 
int main() 


struct event_base*base=event_init(); 


struct 
event*signal event=evsignal new(base,SIGINT,signal_ cb, base); 
event_add(signal_ event, NULL ); 
timeval tv={1,0}; 
struct event*timeout_ event=evtimer_new(base,timeout_cb, NULL); 
event_add(timeout_event, &tv); 
event_base_dispatch(base); 
event_free(timeout_event); 
event_free(signal event); 
event_base_free(base); 


上 


代码 清单 12-1 虽 然 徐 单 ， 但 却 基 本 上 摘 述 了 Libevent 库 的 主要 远 


1) 调用 event_init 函 数 创 建 event base 对象。 一 个 event_base 相 当 于 


一 个 Reactor 实 例 。 


2) 创建 具体 的 事件 处 理 器 ， 并 设置 它们 所 从 属 的 Reactor 实 例 。 
evsignal_new 和 evtimer_new 分 别 用 于 创建 信号 事件 处 理 侣 和 定时 事件 
处 理 器 ， 它 们 是 定义 在 include/event2/event.h 文 件 中 的 宏 : 


#define evsignal new(b,x,cb,arg)\ 
event_new((b),(x),EV_SIGNAL|EV_PERSIST, (cb), (arg)) 
#define evtimer_new(b,cb,arg)event_ new((b),-1,0,(cb), (arg)) 


可 风 ， 它 们 的 统一 入 口 是 event_new 函 数 ， 即 用 于 创建 通用 事件 处 
理 器 (图 12-1 中 的 EventHandler) 的 函数 。 其 定义 是 : 


struct event*event new(struct event_base*base,evutil socket _t 
fd,short events,void(*cb)(evutil socket_t, short,void*),void*arg) 


其 中 ，base 参 数 指定 新 创建 的 事件 处 理 妖 从 属 的 Reactor。fd 参 数 
指定 与 该 事件 处 理 器 关联 的 句 顶 。 创 建 /O 事 件 处 理 器 时 ， 应 该 给 fd 参 
数 传递 文件 描述 符 值 ; 创建 信号 事件 处 理 器 时 ， 应 该 给 fd 参数 传递 信 
号 值 ， 比 如 代码 清单 12-1 中 的 SIGINT; 创建 定时 事件 处 理 器 时 ， 则 应 
该 给 fd 参数 传递 -1。events 参 数 指 定 事件 类 型 ， 其 可 选 值 都 定义 在 
include/event2/event.h 文 件 中 ， 如 代码 清单 12-2 所 示 。 


代码 清单 12-2” Libevent 支 持 的 事件 类 型 


#define EV_TIMEOUT 0Qx01/* 定 时 事件 */ 
#define EV_READ 0x02/* 可 读 事 件 */ 
#define EV_WRITE Ox04/* 可 写 事件 */ 

#define EV_SIGNAL 0x08/* 信 号 事件 */ 

#define EV_PERSIST 0x10/* 永 久 事 件 */ 

/* 边 沿 触发 事件 ， 需 要 I/0 复 用 系统 调用 支持 ， 比 如 epo11*/ 
#define EV_ET Ox20 


dg 


代码 清单 12-2 中 ，EV_PERSIST 的 作用 是 : 事件 被 触发 后 ， 自 动 
重新 对 这 个 event 调 用 event_add 函 数 〈( 见 后 文 ) 。 


cb 参数 指定 目标 事件 对 应 的 回调 函数 ， 相 当 于 图 12-1 中 事件 处 理 
右 的 handle_event 方 法 。arg 参 数 则 是 Reactor 传 递 给 回调 函数 的 参数 。 


event_new 范 数 成 功 时 返回 一 个 event 类 型 的 对 象 ， 也 就 是 Libevent 
的 事件 处 理 器 。Libevent 用 单词 “event” 来 描述 事件 处 理 器 ， 而 不 是 事 
件 ， 会 使 读者 觉得 有 些 混 乱 ， 故 而 我 们 约定 如 下 : 


口 事件 指 的 是 一 个 句柄 上 绑 定 的 事件 ， 比 如 文件 描述 符 0 上 的 可 该 
i 


口 事件 处 理 器 ， 也 就 是 event 结 构 体 类 型 的 对 象 ， 除 了 包含 事件 必 
须 具备 的 两 个 要 素 (句柄 和 事件 类 型 ) 外 ， 还 有 很 多 其 他 成 员 ， 比 如 
回调 画 数 。 


口 事件 由 事件 多 路 分 发 融 管 理 ， 事 件 处 理 需 则 由 事件 队列 管理 。 
事件 队列 包括 多 种 ， 比 如 event_base 中 的 注册 事件 队列 、 活 动 事件 队列 
和 通用 定时 器 队列 ， 以 及 evmap 中 的 MO 事件 队列 、 信 和 号 事件 队列 。 关 
于 这 些 事件 队列 ， 我 们 将 在 后 文 依次 讨论 。 


口 事件 循环 对 一 个 被 激活 事件 〈 就 绪 事 件 ) 的 处 理 ， 指 的 是 执行 
该 事件 对 应 的 事件 处 理 器 中 的 回调 函数 。 


3) 调用 event_add 范 数 ， 将 事件 处 理 锅 添加 到 注册 事件 队列 中 ， 
并 将 该 事件 处 理 器 对 应 的 事件 添加 到 事件 多 路 分 发 左 中 。event_add 函 
数 相当 于 Reactor 中 的 register_handler 方 法 。 


4) 调用 event_base_dispatch 范 数 来 执行 事件 循环 。 


5) 事件 循环 结束 后 ， 使 用 *_free 系 列 函数 来 释放 系统 资源 。 


由 此 可 见 ， 代 码 清单 12-1 给 我 们 提供 了 一 条 分 析 Libevent 源 代码 的 
主线 。 不 过 在 此 之 前 ， 我 们 先 简 单 介绍 一 下 Libevent 源 代码 的 组 织 结 


构 。 


12.2.2” 源 代码 组 织 结构 


Libevent 源 代码 中 的 目录 和 文件 按照 功能 可 划分 为 如 下 部 分 : 


口头 文件 目录 include/event2。 该 目录 是 自 Libevent 主 版 本 升级 到 
2.0 之 后 引入 的 ， 在 1.4 及 更 老 的 版 本 中 并 无 此 目录 。 该 目录 中 的 头 文件 
是 Libevent 提 供给 应 用 程序 使 用 的 ， 比 如 ，event.h 头 文件 提供 核心 函 
数 ，http.h 头 文件 提供 HITP 协 议 相 关 服 务 ，mpc.h 头 文件 提供 远程 过 程 
调用 支持 。 


口 源 码 根 目 录 下 的 头 文 件 。 这 些 头 文件 分 为 两 类 : 一 类 是 对 
include/event2 目 孙 下 的 部 分 头 文件 的 包装， 另外 一 类 是 供 Libevent 内 部 
使 用 的 辅助 性 头 文件 ， 它 们 的 文件 名 都 具有 *-internal.h 的 形式 。 


口 通用 数据 结构 目录 compat/sys。 该 日 录 下 仪 有 一 个 文件 一 一 
queue.h。 它 封装 了 跨 平 台 的 基础 数据 结构 ， 包 括 单 向 链表 、 双 同 链 
表 、 队 列 、 尾 队列 和 循环 队列 。 


Dsample 目 录 。 它 提供 一 些 示例 程序 。 


Dtest 目 录 。 它 提供 一 些 测试 代码 。 


口 WIN32-Code 目 录 。 它 提供 Windows 平 台 上 的 一 些 专 用 代码 。 


口 event.c 文 件 。 该 文件 实现 Libevent 的 整体 框架 ， 主 要 是 event 和 
event_base 两 个 结构 体 的 相关 操作 。 


Ddevpoll.c ~ kqueue.c ~ evport.c 、 select.c、 win32select.c、poll.c 和 
epoll.c 文 件 。 它 们 分 别 封装 了 如 下 WO 复 用 机 制 : /devpoll、kqueue、 
event ports 、 POSIX select、Windows select、poll] 和 epoll。 这 些 文件 的 
主要 内 容 相 似 ， 都 是 针对 结构 体 eventop ( 见 后 文 )》 所 定义 的 接口 函数 
的 具体 实现 。 


口 minheap-internal.h 文 件 。 该 文件 实现 了 一 个 时 间 堆 ， 以 提供 对 定 
时 事件 的 文 持 。 


Dsignal.c 文 件 。 它 提供 对 信和 号 的 文 持 。 其 内 容 也 是 针对 结构 体 
eventop 所 定义 的 接口 函数 的 具体 实现 。 


Devmap.c 文 件 。 它 维护 句柄 (文件 描述 符 或 信号 ) 与 事件 处 理 咒 
的 映射 关系 。 


口 event_tagging.c 文 件 。 它 提供 往 缓冲 区 中 添加 标记 数据 (比如 一 
个 整数 ) ， 以 及 从 缓冲 区 中 读 取 标 记 数 据 的 函数 。 


品 event_iocp.c 文 件 。 它 提供 对 Windows IOCP (Input/Output 
Completion Port， 输 入 输出 完成 端口 ) 的 支持 。 


口 buffer*.c 文 件 。 它 提供 对 网 络 WVO 缓 冲 的 控制 ， 包 括 : 输入 输出 
数据 过 滤 ， 传 输 速 率 限 制 ， 使 用 SSL (Secure Sockets Layer) 协议 对 应 
用 数据 进行 保护 ， 以 及 零 找 贝 文件 传输 等 。 


Devthread*.c 文 件 。 它 提供 对 多 线程 的 支持 。 

Dlistener.c 文 件 。 它 封 狼 了 对 监听 socket 的 操作 ， 包 括 监听 连接 和 
接受 连接 。 

口 logs.c 文 件 。 它 是 Libevent 的 日 志 系统 。 

口 evutil.c、evutil_rand.c、strlcpyc 和 arc4random.c 文 件 。 它 们 提供 


一 些 基 本 操作 ， 比 如 生成 随机 数 、 获 取 socket 地 址 信息 、 读 取 文 件 、 
设置 socket 属性 等 。 


口 evdns.c、http.c 和 evrpc.c 文 件 。 它 们 分 别提 供 了 对 DNS 协议 、 
HTTP 协 议和 RPC (Remote Procedure Call， 远 程 过 程 调用 ) 协议 的 支 


持 。 
口 epoll_sub.c 文 件 。 该 文件 未 见 使 用 。 


在 整个 源码 中 ，event-internal.h 、include/event2/event_struct.h 、 
event.c 和 evmap.c 等 4 个 文件 最 为 重要 。 它 们 定义 了 event 和 event_base 结 
构 体 ， 并 实现 了 这 两 个 结构 体 的 相关 操作 。 下 面 的 讨论 也 主要 是 围绕 
这 几 个 文件 展开 的 。 


12.2.3 ”event 结 构 体 


前 文 提 到 ，Libevent 中 的 事件 处 理 器 是 event 结 构 类 型 。event 结 构 
体 封 闭 了 句柄 、 事 件 类 型 、 回 调 函 数 ， 以 及 其 他 必要 的 标志 和 数据 。 
该 结构 体 在 include/event2/event_struct.h 文 件 中 定义 : 


struct event 


{ 

TAILQ_ ENTRY(event)ev_active next; 
TAILQ_ ENTRY(event)ev_next; 

union{ 

TAILQ ENTRY(event)ev_next _ with common_ timeout; 
int min_heap_idx; 
}ev_timeout_pos; 

evutil] socket t ev_fd,; 

struct event_base*ev_base; 

union{ 

struct{ 

TAILQ_ ENTRY(event)ev_io_next; 
struct timeval ev_timeout; 
}ev_io; 

structt{ 

TAILQ_ ENTRY(event)ev_signal next; 
short ev_ncalls; 
short*ev_pncalls; 

}ev_signal; 

}_ev; 

Short ev_events; 

Short ev_res; 

short ev_flags; 

ev_uint8_t ev_pri; 

ev_uint8_t ev_closure; 

struct timeval ev_timeout,; 
void(*ev_callback)(evutil socket _t, short,void*arg); 
void*ev_arg; 


}; 


下 面 我 们 详细 介绍 event 结 构 体 中 的 每 个 成 员 : 


Dev_events。 它 代表 事件 类 型 。 其 取 值 可 以 是 代码 清单 12-2 所 示 
的 标志 的 按 位 或 ( 互 不 的 事件 类 型 除外 ， 比 如 读 写 事件 和 信号 事件 就 
不 能 同时 被 设置 ) 。 


Dev_next。 所 有 已 经 注册 的 事件 处 理 咒 〈 包 括 VO 事 件 处 理 器 和 信 
号 事件 处 理 器 ) 通过 该 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 注册 事件 
队列 。 安 TAILQ_ENTRY 有 是 尾 队 列 中 的 节点 类 型 ， 它 定义 在 
compatsys/queue.h 文 件 中 : 


#define TAILQ_ ENTRY(type)\ 
struct{\ 

struct type* tqe_ next;\V* 下 一 个 元 素 */ 
struct type**tqe_prev;\V* 前 一 个 元 素 的 地 址 */ 
} 


Dev_active_next。 所 有 被 激活 的 事件 处 理 器 通过 该 成 员 串 联 成 一 
个 尾 队 列 ， 我 们 称 之 为 活动 事件 队列 。 活 动 事件 队列 不 止 一 个 ， 不 同 
优 移 级 的 事件 处 理 喜 被 激活 后 将 被 插入 不 同 的 活动 事件 队列 中 。 在 事 
件 循 环 中 ，Reactor 将 按 优先 级 从 高 到 低 遍 历 所 有 活动 事件 队列 ， 并 依 
次 处 理 其 中 的 事件 处 理 器 


Dev_timeout_pos。 这 是 一 个 联合 体 ， 它 仅 用 于 定时 事件 处 理 右 
为 了 讨论 的 方便 ， 后面 我 们 称 定时 事件 处 理 絮 为 定时 絮 。 老 版 本 的 
Libevent 中 ， 定 时 亏 都 是 由 时 间 堆 来 管理 的 。 但 开发 者 认为 有 时 候 使 
用 人 简单 的 链表 来 管理 定时 右 将 具有 更 高 的 效率 。 因 此 ， 新 版 本 的 


Libevent 就 引入 了 上 所谓“ 通用 定时 器 ”的 概念 。 这 些 定 时 器 不 是 存储 在 时 
间 堆 中 ， 而 是 存储 在 尾 队 列 中 ， 我 们 称 之 为 通用 定时 絮 队 列 。 对 于 通 
用 定时 器 而 言 ，ev_timeout_pos 联 合体 的 ev_next_with_common_timeout 
成 员 指出 了 该 定时 器 在 通用 定时 器 队列 中 的 位 置 。 对 于 其 他 定时 器 而 
言 ，ev_timeout_pos 联 合体 的 min_heap_idx 成 员 指出 了 该 定时 器 在 时 间 
堆 中 的 位 置 。 一 个 定时 器 是 否 是 通用 定时 器 取决 于 其 超时 值 大 小 ， 具 
体 判断 原则 请 读者 自己 参考 event.c 文 件 中 的 is_common_timeout 函 数 。 


口 ev。 这 有 是 一 个 联合 体 。 所 有 具有 相同 文件 描述 符 值 的 MO 事件 
处 理 絮 通过 ev.ev_io.ev_io_next 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 VO 
事件 队列 ， 所 有 具有 相同 信号 值 的 信号 事件 处 理 铝 通过 
ev.eV_signal.ev_signal_next 成 员 串 联 成 一 个 尾 队 列 ， 我 们 称 之 为 信号 事 
件 队 列 。ev.ev_signal.ev_ncalls 成 员 指定 信号 事件 发 生 时 ，Reactor 需 要 
执行 多 少 次 该 事件 对 应 的 事件 处 理 圳 中 的 回调 函数 。 
ev.ev_signalev_pncalls 指 针 成 员 要 么 是 NULL， 要 么 指向 


ev.ev_signal.ev_ncalls ° 


在 程序 中 ， 我 们 可 能 针对 同一 个 socket 文 件 描述 符 上 的 可 读 / 可 写 
事件 创建 多 个 事件 处 理 器 〈 它 们 拥有 不 同 的 回调 函数 ) 。 当 该 文件 描 
述 符 上 有 可 读 / 可 写 事件 发 生 时 ， 所 有 这 些 事件 处 理 需 都 应 该 被 处 理 。 
所 以 ，Libevent 使 用 IO 事件 队列 将 具有 相同 文件 描述 符 值 的 事件 处 理 
如 组 织 在 一 起 。 这 样 ， 当 一 个 文件 接 述 符 上 有 事件 发 生 时 ， 事 件 多 路 


分 发 亏 吏 能 很 快 地 把 所 有 相关 的 事件 处 理 右 添加 到 活动 事件 队列 中 。 
言 号 事件 队列 的 存在 也 是 由 于 相同 的 原因 。 可 见 ，LIO 事 件 队列 和 信和 号 
事件 队列 并 不 是 注册 事件 队列 的 细致 分 类 ， 而 是 男 有 用 处 。 


Dev_fd。 对 于 IO 事件 处 理 器 ， 它 是 文件 搞 述 符 值 ;对 于 信和 号 事件 


Dev_base。 该 事件 处 理 右 从 属 的 event_base 实 例 。 
Dev_res。 它 记录 当前 激活 事件 的 类 型 。 


Dev_flags。 它 是 一 些 事 件 标 志 。 其 可 选 值 定义 在 


include/event2/event_struct.h 文 件 中 : 


#define EVLIST_TIMEOUT 9x01/* 事 件 处 理 器 从 属于 通用 定时 器 队列 或 时 间 堆 */ 
#define EVLIST_INSERTED Ox62/* 事 件 处 理 器 从 属于 注册 事件 队列 */ 
#define EVLIST_SIGNAL 90x94/* 没 有 使 用 
#define EVLIST_ACTIVE 0x08/* 事 件 处 理 器 从 属于 活动 事件 队列 */ 
#define EVLIST_INTERNAL 0x10/* 内 部 使 用 */ 

#define EVLIST_INIT 0x80/* 事 件 处 理 器 已 经 被 初始 化 */ 
#define EVLIST_ALL(9xf669|0x9f)/* 定 义 所 有 标志 */ 


Dev_pri。 它 指定 事件 处 理 絮 优先 级 ， 值 越 小 则 优先 级 越 高 。 


Dev_closure。 它 指定 event_base 执 行事 件 处 理 絮 的 回调 函数 时 的 
行为 。 其 可 选 值 定 义 于 event-internal.h 文 件 中 : 


/* 默 认 行为 */ 
#define EV_CLOSURE_ NONE 0 


/* 执 行 信 号 事件 处 理 器 的 回调 函数 时 ， 调 用 ev.ev_signal.ev_ncal1s 次 该 回调 函数 

Sf 
#define EV_CLOSURE_ SIGNAL 1 
/* 执 行 完 回调 函数 后 ， 再 次 将 事件 处 理 器 加 入 注册 事件 队列 中 */ 
#define EV_CLOSURE_ PERSIST 2 


Dev_timeout。 它 仪 对 定时 絮 有 效 ， 指 定 定时 絮 的 超时 值 。 


Dev_callback。 它 是 事件 处 理 属 的 回调 函数 ， 由 event_base 调 用 。 
回调 函数 被 调用 时 ， 它 的 3 个 参数 分 别 被 传 入 事件 处 理 絮 的 如 下 3 个 成 


员 : ev_fd、ev_res 和 ev_arg。 


Dev_arg。 回 调 函 数 的 参数 。 


12.2.4 往 注册 事件 队列 中 添加 事件 处 理 套 


前 面 提 到 ， 创 建 一 个 event 对 象 的 函数 是 event_new (及 其 变 体 ) ， 
它 在 event.c 文 件 中 实现 。 该 函数 的 实现 相当 简单， 主要 是 给 event 对 象 
分 配 内 存 并 初始 化 它 的 部 分 成 员 ， 因 此 我 们 不 讨论 它 。event 对 象 创建 
好 之 后 ， 应 用 程序 需要 调用 event_add 函 数 将 其 添加 到 注册 事件 队列 
中 ， 并 将 对 应 的 事件 注册 到 事件 多 路 分 发 左上 “。event_add 函 数 在 
event.c 文 件 中 实现 ， 主 要 是 调用 另外 一 个 内 部 函数 event_add_internal， 
如 代码 清单 12-3 所 示 。 


代码 清单 12-3 event_add_internal 函 数 


static inline int event add_internal(struct event*ev,const 
struct timeval*tv,int tv_is absolute) 

{ 

struct event_base*base=ev- >ev_base; 

int res=0; 

int notify=0; 

EVENT_BASE_ASSERT_LOCKED(base); 

_event_debug_assert_is_ setup(ev); 

event_debug(( 
"event_add:event:%p(fd%d),%s%s%scall%p", 

ev, 

(int)ev->ev_fd, 
V->ev_events&EV_READ?"EV_READ™:"", 
V->ev_events&EV_ WRITE?"EV WRITE":"", 
tv?"EV_TIMEOUT™:"™"", 

ev->ev_callback)); 

EVUTIL_ASSERT(!(ev- >ev_flags&~EVLIST_ ALL)); 

/* 如 果 新 添加 的 事件 处 理 器 是 定时 器 ， 且 它 尚 未 被 添加 到 通用 定时 器 队列 或 时 间 堆 中 ， 

则 为 该 定时 器 在 时 间 堆 上 预 留 一 个 位 置 */ 

if(tv!=NULL&&!(ev->ev flags&EVLIST TIMEOUT)){ 

if(min_heap_reserve(&base->timeheap, 

1+min_heap_size(&base->timeheap))==-1) 
return(-1); 


hr 


} 
/* 如 果 当 前 调用 者 不 是 主线 程 《执行 事件 循环 的 线程 ) ， 并 且 被 添加 的 事件 处 理 器 是 信 


号 事件 处 理 器 ， 而 且 主 线程 正在 执行 该 信号 事件 处 理 器 的 回调 函数 ， 则 当前 调用 者 必须 等 待 
主线 程 完成 调用 ， 否 则 将 引起 竞 态 条 件 〈 考 虑 event 结 构 体 的 ev_ncal1s 和 ev_pncal1s 成 
员 ) *X 


#Ifndef_ EVENT_DISABLE_THREAD_SUPPORT 

if(base->current_ event==ev&&(ev->ev_events&EV_ SIGNAL) 

&&1EVBASE_ IN THREAD(base))t{ 

++base->current_event waiters; 

EVTHREAD_COND_WAIT(base->current_event_cond,base- > 
th_base_lock); 

} 

#endif 

if((ev->ev_events&(EV_ READ|EV_ WRITE|EV_SIGNAL))&& 

!(ev->ev_flags&(EVLIST_ INSERTED|EVLIST ACTIVE)))t{ 

if(ev- >ev_events&(EV_READ|EV_WRITE)) 

/* 添 加 I/0 事 件 和 I/0 事 件 处 理 器 的 映射 关系 */ 

res=evmap_io_add(base,ev->ev_fd, ev); 

else if(ev->ev_events&EV_ SIGNAL) 

/* 添 加 信号 事件 和 信号 事件 处 理 器 的 映射 关系 */ 


res=evmap_signal add(base, (int)ev->ev_fd,ev); 


/* 将 事件 处 理 器 搬入 注册 事件 队列 */ 
event_queue_insert(base,ev,EVLIST_INSERTED); 
下 Peel) 


/事件 多 路 分 发 吉 中 添加 了 新 的 事件 ， 所 以 要 通知 主线 程 */ 
notify=1; 
res=0; 


} 

/* 下 面 将 事件 处 理 器 添加 至 通用 定时 器 队列 或 时 间 堆 中 。 对 于 信号 事件 处 理 器 和 I 工 /0 二 
件 处 理 器 ， 根 据 evmap_*_add 函 数 的 结果 决定 是 否 添 加 (这 是 为 了 给 事件 设置 超时 ) ; 而 对 
于 定时 器 ， 则 始终 应 该 添加 之 */ 

if(res!=-1&&tv!=NULL){ 

struct timeval now; 

int common_ timeout 

/* 对 于 永久 性 事件 处 理 器 ， 如 果 其 超时 时 间 不 是 绝对 时 间 ， 则 将 该 事件 处 理 器 的 超时 时 
间 记 录 在 变量 ev- >ev_io _timeout 中 "ev_io_timeout 是 定义 在 event-internal.h 
文件 中 的 宏 : #define ev_io timeout_ev.ev_io.ev_timeout*/ 

A em 

->ev_io timeout=*tyv; 
/* 如 果 该 寻 件 处 理 器 已 经 被 插入 通 定时 器 队列 或 时 间 堆 中 ， 则 先 删 除 它 */ 

if(ev- >ev_flags&EVLIST TIMEOUT){ 

if(min_heap_elt_is_ top(ev)) 

notify=1; 

event_queue_remove(base,ev,EVLIST_TIMEOUT); 


向 


} 

/* 如 果 竺 添加 的 事件 处 理 器 已 经 被 激活 ， 且 原因 是 超时 ， 则 从 活动 事件 队列 中 删除 它 ， 
以 避免 其 回调 函数 被 执行 。 对 于 信和 号 事件 处 理 器 ， 必 要 时 还 需 将 其 ncal1s 成 员 设 置 为 9 他 
意 ，ev_pncalls 如 果 不 为 NULL， 它 指向 ncalls) 。 前 面 提 到 ， 信 和 号 事件 被 触发 时 ， 
ncalls 指 定 其 回调 函数 被 执行 的 次 数 。 将 ncalls 设 置 为 0， 可 以 干净 地 终止 信号 事件 的 处 
理 */ 

if((ev->ev_flags&EVLIST ACTIVE)&& 

(ev->ev_res&EV_ TIMEOUT) ){ 

if(ev->ev_events&EV_ SIGNAL){ 

if(ev->ev_ncalls&&ev->ev pncalls)t 

*ev->ev_pncalls=0; 

} 


} 
event_queue_remove(base,ev,EVLIST ACTIVE); 


mT 


]| 


gettime(base &now); 
common_timeout=is_common_timeout(tyv,base); 
if(tv_is absolute)t{ 

ev->ev_timeout=*tv; 

/判断 应 该 将 定时 器 插入 通用 定时 器 队列 ， 还 是 插入 时 间 堆 */ 
}else if(common_ timeout)t{ 

struct timeval tmp=*tyv; 
tmp.tv_usec&=MICROSECONDS_ MASK; 

evutil timeradd(&now,&tmp,&ev->ev timeout); 
ev->ev_timeout.tv_usec|= 
(tv->tv_usec&~MICROSECONDS MASK); 

}elsef{ 


/* 加 上 当前 系统 时 间 ， 以 取得 定时 右 超 时 的 绝对 时 间 */ 


evutil timeradd(&now,tv,&ev->ev timeout); 


} 

event_debug(( 

"event_add:timeout in%d seconds,call%p", 

(int)tv->tv_sec,ev->ev_callback)); 

event_queue_insert(base,ev,EVLIST_TIMEOUT);/* 最 后 ， 插 入 定时 器 */ 

/* 如 果 被 插入 的 事件 处 理 器 是 通用 定时 器 队列 中 的 第 一 个 元 素 ， 则 通过 调用 

common_timeout_schedule 画 数 将 其 转移 到 时 间 堆 中 。 这 样 ， 通 用 定时 器 链表 和 时 间 堆 
中 的 定时 器 就 得 到 了 统一 的 处 理 */ 

if(common_timeout)t{ 

struct common timeout_ list*ctl= 

get_common_timeout_ list(base,&ev->ev_ timeout); 

if(ev==TAILQ_ FIRST(&ctl->events))t 

common_timeout_schedule(ct], &now, ev); 


} 

}elsef{ 
if(min_heap_elt_is_top(ev)) 
notify=1; 

} 


} 

/* 如 果 必 要 ， 唤 醒 主 线程 */ 
if(res!=-1&&notify& SEVBASE NEED NOTIFY(base)) 
evthread_notify_base(base); 

_event_debug_note add(ev); 

return(res); 


} 


从 代码 清单 12-3 可 见 ，event_add_internal 函 数 内 部 调用 了 几 个 重要 
的 函数 : 


口 evmap_io_add。 该 函数 将 MO 事件 添加 到 事件 多 路 分 发 右 中 ， 并 
将 对 应 的 事件 处 理 需 添加 到 IO 事件 队列 中 ， 同 时 建立 MO 事件 和 IO 事 
件 处 理 句 之 间 的 映射 关系 。 我 们 将 在 下 一 广 详 细 讨 论 该 男 数 。 


口 evmap_signal_add。 该 函数 将 信号 事件 添加 到 事件 多 路 分 发 融 
中 ， 并 将 对 应 的 事件 处 理 器 添加 到 信号 事件 队列 中 ， 同 时 建立 信号 事 


件 和 信号 事件 处 理 侨 之 间 的 映射 关系 。 


口 event_queue_insert。 该 函数 将 事件 处 理 器 添加 到 各 种 事件 队列 
中 : 将 VO 事件 处 理 器 和 信号 事件 处 理 器 插入 注册 事件 队列 ， 将 定时 器 
插入 通用 定时 器 队列 或 时 间 堆 ;将 被 激活 的 事件 处 理 器 添加 到 活动 事 
件 队 列 中 。 其 实现 如 代码 清单 12-4 所 示 。 


代码 清单 12-4 event_queue_insert 函 数 


static void event_ queue insert(struct event_base*base,struct 
event*ev,int queue) 

{ 

EVENT_BASE_ASSERT_LOCKED(base); 

/* 避 人 免 重复 插入 */ 

if(ev->ev_flags&queue)t{ 

/*Double insertion is possible for active events*/ 

if(queue&EVLIST_ACTIVE) 

return; 

event_errx(1,"%s:%p(fd%d)already on queue%x",_ _func ,ev,ev-> 
ev_fd, queue); 

return; 


if(~ev->ev_ flags&EVLIST_ INTERNAL) 
base->event_count++;/* 将 event_base 拥 有 的 事件 处 理 器 总 数 加 1*/ 
ev->ev_flags|=queue;/* 标 记 此 事件 已 被 添加 过 */ 
switch(queue)t 

/* 将 I/0 事 件 处 理 器 或 信号 事件 处 理 器 插入 注册 事件 队列 */ 

case EVLIST_INSERTED : 

TAILQ_ INSERT_TAIL(&%base->eventqueue,ev,ev_next); 
break; 

/* 将 就 绪 事 件 处 理 器 插入 活动 事件 队列 */ 

case EVLIST_ ACTIVE: 

base->event_ count_ activet+t+; 
TAILQ_INSERT_TAIL(&base->activequeues[ev->ev_pril], 
ev,ev_active_next); 

break; 

/* 将 定时 器 插入 通用 定时 器 队列 或 时 间 堆 */ 

case EVLIST_ TIMEOUT:{ 

if(is_ common_ timeout(&ev->ev timeout,base))t{ 


I 
I 


struct common_ timeout_ list*ctl1= 
get_common_timeout_ list(base,&ev->ev timeout); 
insert_common_timeout_inorder(ctl,ev); 

}else 

min_heap_push(&base->timeheap, ev); 

break; 


} 
default: 
event_errx(1,"%s:unknown queue%x",__func ,queue); 


} 
} 


12.2.5 ”往事 件 多 路 分 发 絮 中 注册 事件 


event_queue_insert 函 数 所 做 的 仅仅 是 将 一 个 事件 处 理 器 加 入 
event_base 的 某 个 事件 队列 中 。 对 于 新 添加 的 VO 事件 处 理 器 和 信号 事 
件 处 理 器 ， 我 们 还 需要 让 事件 多 路 分 发 器 来 监听 其 对 应 的 事件 ， 同 时 
建立 文件 描述 符 、 信 号 值 与 事件 处 理 器 之 间 的 映射 关系 。 这 就 要 通过 
调用 evmap_io_add 和 evmap_signal_add 两 个 函数 来 完成 。 这 两 个 函数 相 
当 于 事件 多 路 分 发 器 中 的 register_event 方 法 ， 它 们 由 evmap.c 文 件 实 
现 。 不 过 在 讨论 它们 之 前 ， 我 们 先 介绍 一 下 它们 将 用 到 的 一 些 重 要 数 
据 结构 ， 如 代码 清单 12-5 所 示 。 


代码 清单 12-5 evmap_io 、event_io_map 和 evmap_signal 、 


evmap_signal_map 


#ifdef EVMAP_USE_HT 

#include"ht-internal.h" 

struct event_ map_entry; 

/* 如 果 定 义 了 EVMAP_USE_HT， 则 将 event_io_map 定 义 为 哈 希 表 。 该 哈 希 表 存 储 
event_map_entry 对 象 和 I/0 事 件 队 列 ( 见 前 文具 有 同样 文件 描述 符 值 的 I/0 事 件 处 理 器 


构成 I/0 事 件 队 列 ) 之 则 的 映射 和 关系， 实际 上 也 束 是 存储 了 文件 描述 符 和 IV0 事 件 处 理 


E 钥 之 加 


的 映 里 关系 */ 
HT_HEAD(event_io_map,event_ map_entry); 
#else/* 否 则 event_io_map 和 下 面 的 event_signal_map 一 样 */ 
#define event_io map event_signal map 
#endif 


/下 面 这 个 结构 体 中 的 entries 数 组 成 员 存 储 信号 值 和 信号 事件 处 理 器 之 间 的 映射 关系 


《用 信和 号 值 索引 数组 entries 即 得 到 对 应 的 信号 事件 处 理 器 ) */ 

struct event_signal mapt{ 

void**entries;/* 用 于 存放 evmap_io 或 evmap_signal 的 数组 */ 
int nentries;/*entries 数 组 的 大 小 */ 


}; 


/* 如 果 定 义 了 EVMAP_USE_HT， 则 哈 希 表 event_io_map 中 的 成 员 具 有 如 下 类 型 */ 


struct event_map_entryt{ 
HT_ENTRY(event_map_entry)map_node ; 
evut1il1 socket t fd; 

union{ 

struct evmap_io evmap_io; 

}ent; 

}; 


/*event_1list 是 由 event 组 成 的 尾 队 列 ， 前 面 讨论 的 所 有 事件 队列 都 是 这 种 类 型 */ 


TAILQ HEAD(event_ list,event); 
/*I/0 事 件 队 列 (确切 地 说 ，evmap_io .events 才 是 I/0 事 伯 
struct evmap_io{ 


队列 ) */ 


tt 


Dstruct event_list events; 


Dev_uint16_t nread: 


Dev_uint16 _t nwrite: 


/* 信 号 事件 队列 (确切 地 说 ，evmap_signal.events 才 是 信号 事件 队列 ) */ 
struct evmap_signal{ 
struct event_ list events; 


}; 


由 于 evmap_io_add 和 evmap_signal _add 两 个 函数 的 逻辑 基本 相同 ， 


因此 我 们 仅 讨论 evmap_io_add 函 数 ， 如 代码 清单 12-6 所 示 。 


代码 清单 12-6 evmap_io_add 函 数 


int evmap_io_add(struct event_ base*base,evutil socket 七 
fd,struct event*ev) 


{ 

/* 获 得 event_base 的 后 端 T/0 复 用 机 制 实例 */ 
const struct eventop*evsel=base->evsel; 
/* 获 得 event_base 中 文件 描述 符 与 1/0 事 件 队 列 的 映射 表 〈 哈 硕 表 或 数组 ) */ 
struct event_ io map*io=&base->io,; 
/*fd 参 数 对 应 的 I/0 事 件 队列 */ 

struct evmap_io*ctx=NULL; 

int nread,nwrite,retval=0; 

Short res=0, ol1d=0; 

struct event*old_ev; 
EVUTIL_ASSERT(fd==ev- >ev_fd); 
if(fd<0) 

return ©; 

#ifndef EVMAP_USE_HT 


/*I/0 事 件 队 列 数 组 io.,entries 中 ， 每 个 文件 描述 符 占 用 一 项 。 如 果 fd 大 于 当前 数组 


的 大 小 ， 则 增加 数组 的 大 小 (扩大 后 的 数组 的 容量 要 大 于 fd) */ 
if(fd>=io->nentries)t{ 
if(evmap_make_space(io,fd,sizeof(struct evmap_io*))==-1) 
return(-1); 

#endif 
/* 下 面 这 个 宏 根 据 EVMAP_USE_HT 是 否 被 定义 而 有 不 同 的 实现 ， 但 目的 都 是 创建 ctx， 

在 映射 表 io 中 为 fd 和 ctx 添 加 映射 关系 */ 

GET_IO_SLOT_AND_CTOR(ctx, io,fd,evmap_io,evmap_io init,evsel-> 
fdinfo_len); 

nread=ctx- >>nread; 

Nwrite=ctx->nwrite; 

if(nread) 

old|=EV_READ; 

if(nwrite) 

old|=EV_WRITE; 

if(ev->ev_events&EV READ){ 

if(++nread==1) 

res|=EV_READ; 

} 

if(ev->ev_ events&EV WRITE)T 

if(++nNwrite==1) 

res|=EV_WRITE,; 

} 

if(EVUTIL UNLIKELY(nread> Oxffff||nwrite>Oxffff))t{ 

event_warnx("Too many events reading or writing on fd%d", 


(int)fd); 
return-1; 


} 

if(EVENT_DEBUG MODE_IS_ ON()&& 

(old_ev=TAILQ FIRST(&ctx->events))&& 

(old_ev->ev_ events&EV_ET)!=(ev->ev_events&EV_ ET))t{ 
event_warnx("Tried to mix edge-triggered and non-edge-triggered" 
"events on fd%d", (int)fd); 

return-1; 


} 

if(res)t{ 

void*extra= ((char )ctx)+sizeof(struct evmap_ io); 

/* 往 事件 多 路 分 发 器 中 注册 事件 。add 是 事件 多 路 分 发 器 的 接口 函数 之 一 。 对 不 同 的 后 
0 机 制 ， 这 些 接口 函数 有 不 同 的 实现 。 我 们 将 在 后 面 讨 论 事件 多 路 分 发 器 的 接口 函 
ny 

if(evsel->add(base,ev->ev_fd, 

old, (ev- >ev_events&EV_ ET)|res,extra)==-1) 

return(-1); 

retval=1; 


ctx->nread=(ev_uint16_t)nread; 

ctx->nwrite=(ev_uint16_t)nwrite; 

/* 将 ev 插 到 I/0 事 件 队 列 ctx 的 尾部 。ev_io_next 是 定义 在 event-internal.h 文 件 
中 的 宏 : #define ev_io next_ev.ev_io.ev io next*/ 

TAILQ INSERT_TAIL(&ctx->events,ev,ev_io_ next); 

return(retval); 


} 


12.2.6 ”eventop 结 构 体 


eventop 结 构 体 封装 了 1/O 复 用 机 制 必 要 的 一 些 操作 ， 比 如 注册 事 
件 、 等 待 事件 等 。 它 为 event_base 支 持 的 所 有 后 端 /O 复 用 机 制 提 供 了 
一 个 统一 的 接口 。 该 结构 体 定义 在 event-internal.h 文 件 中 ， 如 代码 清单 


12-7 所 示 。 


代码 清单 12-7 ”eventop 结 构 体 


struct eventopt{ 

/* 后 端 T/0 复 用 技术 的 名 称 */ 

const char*name; 

/* 初 始 化 函数 */ 

void*(*init)(struct event_base*); 

/* 注 册 事 件 */ 

int(*add)(struct event_ base*,evutil socket_t fd,short old, short 
events,void*fdinfo); 

/* 删 除 事件 */ 

int(*del)(struct event_base*,evutil_socket_t fd,short old, short 
events,void*fdinfo); 

/* 等 待 事件 */ 

int(*dispatch)(struct event base*,struct timeval* ) ; 

/* 释 放 I/0 复 用 机 制 使 用 的 资源 */ 

void(*dealloc)(struct event_base*); 

/* 程 序 调用 fork 之 后 是 否 需 要 重新 初始 化 event_base*/ 

int need_reinit,; 

/*I/0 复 用 技术 支持 的 一 些 特性 ， 可 选 如 下 3 个 值 的 按 位 或 ，EV_FEATURE_ET (支持 边 
沿 触发 事件 EV_ET) 、EV_FEATURE_01 (事件 检测 算法 的 复杂 度 是 0(1)) 和 
EV_FEATURE_FDS (不 仅 能 监听 socket 上 的 事件 ， 还 能 监听 其 他 类 型 的 文件 描述 符 上 的 事 
件 ) */ 

enum event method_ feature features; 

/* 有 的 I/0 复 用 机 制 需 要 为 每 个 I/0 事 件 队 列 和 信号 事件 队列 分 配额 外 的 内 存 ， 以 避免 
同一 个 文件 描述 符 被 重复 插入 I/0 复 用 机 制 的 事件 表 中 。evmap_io_add (或 
evmap_io_del) 函数 在 调 jeventop 的 add (或 del) 方法 时 ， 将 这 段 内 存 的 起 始 地 址 作 
为 第 5 个 参数 传递 给 add (或 del) 方法 。 下 面 这 个 成 员 则 指定 了 这 段 内 存 的 长 度 */ 

size_t fdinfo_ len; 


}; 


Hu 


前 文 提 到 ，devpoll.c、kqueue.c 、evport.c、select.c 、 
win32select.c、poll.c 和 epoll.c 文 件 分 别针 对 不 同 的 VO 复 用 技术 实现 了 
eventop 定 义 的 这 套 接 口 。 那 么 ， 在 文 持 多 种 IO 复 用 技术 的 系统 
Libevent 将 选择 使 用 哪个 呢 ? 这 取决 于 这 些 MO 复 用 技术 的 优先 级 。 
Libevent 支 持 的 后 端 JO 复 用 技术 及 它们 的 优先 级 在 event.c 文 件 中 定 
义 ， 如 代码 清单 12-8 所 示 。 


代码 清单 12-8 Libevent 广 持 的 后 端 VO 复 用 技术 及 它们 的 优先 级 


#ifdef_EVENT_HAVE_EVENT_PORTS 

extern const struct eventop evportops; 
#endif 

#ifdef_EVENT_HAVE_SELECT 

extern const struct eventop selectops; 
#endif 

#ifdef_EVENT_HAVE_POLL 

extern const struct eventop pollops; 
#endif 

#ifdef_EVENT_HAVE_EPOLL 

extern const struct eventop epollops; 
#endif 
#ifdef_EVENT_HAVE_WORKING KQUEUE 
extern const struct eventop kqops; 
#endif 

#ifdef_EVENT_HAVE_DEVPOLL 

extern const struct eventop devpollops; 
#endif 

#ifdef WIN32 

extern const struct eventop win32ops ; 
#endif 

static const struct eventop*eventops[]={ 
#ifdef_EVENT_HAVE_EVENT_PORTS 
&evportops, 

#endif 
#ifdef_EVENT_HAVE_WORKING KQUEUE 
Kkqops, 

#endif 

#ifdef_EVENT_HAVE_EPOLL 

&epollops, 

#endif 

#ifdef_EVENT_HAVE_DEVPOLL 
devpollops, 

#endif 

#ifdef_EVENT_HAVE_POLL 

&pollops, 

#endif 

#ifdef_EVENT_HAVE_SELECT 

Kselectops, 

#endif 

#ifdef WIN32 

&cwin32ops， 

#endif 

NULL 


}; 


Libevent 通 过 所 历 eventops 数 组 来 选择 其 后 端 IO 复 用 技术 。 明 历 的 
顺序 是 从 数组 的 第 一 个 元 素 开 始 ， 到 最 后 一 个 元 素 结束 。 所 以 ,在 
Linux 下 ，Libevent 默 认 选 择 的 后 端 WO 复 用 技术 是 epoll。 但 很 显然 ， 用 
户 可 以 修改 代码 清单 12-8 中 定义 的 一 系列 宏 来 选择 使 用 不 同 的 后 端 V/O 
复 用 技术 。 


12.2.7 event_ base 结构 体 


结构 体 event_base 是 Libevent 的 Reactor。 它 定义 在 event-internal.h 文 
件 中 ， 如 代码 清单 12-9 所 示 。 


代码 清单 12-9 event_base 结 构 体 


struct event_baset{ 
/初始 化 Reactor 的 时 候选 择 一 种 后 端 I/0 复 用 机 制 ， 并 记录 在 如 下 字段 中 */ 
const struct eventop*evsel; 

/* 指 向 I/0 复 用 机 制 真 存储 的 数据 ， 它 通 过 evse1 成 员 的 init 函 数 来 初始 化 */ 
void*evbase; 
/* 事 件 变化 队列 。 其 用 途 是 : 如 果 一 个 文件 描述 符 上 注册 的 事件 被 多 次 修改 ， 则 可 以 使 

缓冲 来 避免 重复 的 系统 调用 〈 比 如 epo11_ct1I) 。 它 仅 能 用 于 时 间 复 杂 度 为 0(1) 的 I/0 复 
技术 */ 
struct event_changelist changelist; 
/指向 信号 的 后 端 处 理 机 制 ， 目 前 仅 在 singal.h 文 件 中 定义 了 一 种 处 理 方 法 */ 
const Struct eventop*evsigsel; 

/* 信 号 事件 处 理 器 使 用 的 数据 结构 ， 其 中 封装 了 一 个 由 socketpair 创 建 的 管道 。 它 

于 信号 处 理 丁 数 和 事件 多 路 分 发 器 之 间 的 通信 ， 这 和 我 们 在 19 .4 节 讨 论 的 统一 事件 源 的 思路 
是 一 样 的 */ 

struct evsig_ info sig; 
/* 添 加 到 该 event_base 的 虚拟 事件 、 所 有 事件 和 激活 事件 的 数量 */ 
int Virtual event _ count; 

int event_count,; 

int event_ count_ active; 

/* 是 否 执 行 完 活动 事件 队列 上 剩余 的 任务 之 后 就 退出 事件 循环 */ 

int event_gotterm; 


/是 否 立 即 退 出 事件 循环 ， 而 不 管 是 人 否 


int event_break; 


/* 是 否 应 该 启动 一 个 新 的 事件 循环 */ 


int event_continue; 


/* 目 前 正在 处 理 的 活动 事件 队列 的 优 2 


int event_running_priority; 
/事件 循环 是 否 已 经 启动 */ 
int running_loop; 


/活动 事件 队列 数组 。 索 引 值 越 小 的 队列 ， 优 先 级 越 


事件 处 理 器 将 被 优先 处 理 */ 


struct event_list*activequeues; 


/* 活 动 事件 队列 数组 的 大 小 ， 即 该 event_base 一 ] 


的 活动 事件 队列 */ 


int nactivequeues; 


tc 级 */ 


还 有 任务 需要 处 更 


E*/ 


/* 下 面 3 个 成 员 用 于 管理 通用 定时 器 队列 */ 


struct common_ timeout_ list**common_timeout_queues,; 


int n_common_timeouts; 


int n_common_timeouts allocated; 


/存放 延迟 回调 函数 的 链表 。 事 件 循 环 每 次 成 功 处 理 


之 后 ， 束 调用 一 次 延迟 回调 函数 */ 


struct deferred cbh_queue defer_queue ; 


/* 文 件 描述 符 和 I/0 事 件 之 间 的 映射 关系 表 */ 


struct event_io map io; 


/* 信 号 值 和 信号 事件 之 间 的 映射 关系 表 */ 


struct event_signal map sigmap; 


上 


/注册 事件 队列 ， 存 放 I/0 事 件 处 理 器 和 信和 号 事件 处 至 


struct event_list eventqueue; 


/* 时 间 堆 */ 

struct min_heap timeheap; 
/* 管 理 系统 时 间 的 一 些 成 员 */ 
struct timeval event_ tv; 
struct timeval tv_cache; 


7 


#if defined(_EVENT_HAVE CLOCK_GETTIME)&& 


defined(CLOCK _ MONOTONIC) 


struct timeval tv_clock diff; 
time_t last_ updated clock_diff; 


#endif 
/* 多 线程 支持 */ 


#ifndef_EVENT_DISABLE_THREAD_SUPPORT 


unsigned long th_owner_id;/* 当 


前 运行 该 event_base 的 


void*th_base_lock;/* 对 event_base 的 独占 锁 */ 


/* 当 前 事件 循环 正在 执行 哪个 事件 处 理 器 


struct event*current_ event; 


的 回调 函数 */ 


个 活动 事件 队列 中 的 所 有 事件 


襄 。 高 优 移 级 的 活动 事件 队列 中 的 


共有 nactivequeues 个 不 同 优先 级 


jn| 


由 
| 
~ 


牛 循环 的 线程 */ 


= 


/* 条 件 变 量 〈 见 第 14 章 ) ， 用 于 唤醒 


E 在 


void*current_event_cond; 


等 待 某 个 事 


伯 


处 到 


完毕 的 线程 */ 


int current_event_waiters;/* 等 待 current_event_cond 的 线程 数 */ 


#endif 
#ifdef WIN32 


struct event_iocp_port*iocp; 

#endif 

/* 该 event_base 的 一 些 配 置 参 数 */ 

enum event_ base _config_flag flags,; 

/* 下 面 这 组 成 员 变 量 给 工作 线程 史 睛 主线 程 提供 Ek 了 方法 (使 用 socketpair 创 建 的 管 
*/ 

int is_notify_pending; 

evutil socket_t th_notify_fd[2]; 

struct event th_notify; 

int(*th_notify_fn)(struct event_base*base); 


}; 


过 


12.2.8 ”事件 循环 


最 后 ， 我 们 讨论 一 下 Libevent 的 “动力 ”>， 即 事件 循环 。Libevent 中 
实现 事件 循环 的 函数 是 event_base_ loop。 该 函数 首先 调用 MO 事件 多 路 
分 发 器 的 事件 监听 函数 ， 以 等 得 事件 ， 当 有 事件 发 生 时 ， 就 依次 处 理 
之 。event_base_loop 函 数 的 实现 如 代码 清单 12-10 所 示 。 


代码 清单 12-10 ”event_base_loop 函 数 


int event_base loop(struct event_base*base, int flags) 
{ 

const struct eventop*evsel=base->evsel; 

struct timeval tv; 

struct timeval*tv_p; 

int res,done,retval=0; 
EVBASE_ACQUIRE_LOCK(base,th_base_lock); 

/一 个 event_base 仅 允许 运行 一 个 事件 循环 */ 
if(base->running_loop)t 

event_warnx("%s:reentrant invocation.Only one event_base_ loop" 
"can run on each event_ base at once.",_ func_  ); 
EVBASE_RELEASE_LOCK(base, th_base_lock); 

return-1; 

} 

base->>running_loop=1;/* 标 记 该 event_base 已 经 开始 运行 */ 
clear_time_cache(base);/* 清 除 event_base 的 系统 时 间 缓 存 */ 


/* 设 置信 号 事件 的 event_base 实 例 */ 
if(base->sig.ev_ signal added&&base->sig.ev_n_ signals_added) 
evsig_ set_base(base); 

done=0; 

#ifndef_EVENT_DISABLE_ THREAD_SUPPORT 
base->th_owner_id=EVTHREAD_GET_ID(); 
#endif 
base->event_gotterm=base->event_break=0; 
while(!'done)t 

base->event_continue=0; 

if(base->event_ gotterm)t{ 

break; 


if(base->event_break)t{ 

break; 

} 

timeout_correct(base, &tv);/* 校 准 系统 时 间 */ 

tv_p=&tv; 

if(!N_ACTIVE_CALLBACKS (base) 

&&1(flags&EVLOOP NONBLOCK)){ 

/* 获 取 时 间 堆 上 堆 顶 元 素 的 超时 值 ， 即 I/0 复 用 系统 调用 本 次 应 该 设置 的 超时 值 */ 
timeout_next (base, &tv_p); 

}elsef{ 
/* 如 果 有 就 绪 事 件 尚未 处 理 ， 则 将 I/0 复 用 系统 调用 的 超时 时 间 “ 置 0”。 这 样 I/0 复 用 系 


统 调 


直接 返回 ， 程 序 也 就 可 以 立即 处 理 就 绪 事 件 了 */ 


evutil timerclear(&tv); 


} 

/* 如 果 event_base 中 没有 注册 任何 事件 ， 则 直接 退出 事件 循环 */ 
if(!event_ haveevents(base)&&IN ACTIVE CALLBACKS(base))t{ 
event_debug(("%s:no events registered.",_ func_  )); 
retval=1; 
goto done; 


/* 更 新 系统 时 间 ， 并 清空 时 间 缓 存 */ 
gettime(base,&base->event_ tv); 

clear_time_ cache (base); 

/* 调 用 事件 多 路 分 发 器 的 dispatch 方 法 等 待 事件 ， 将 就 绪 引 
res=evsel->dispatch(base, tv_p); 

if(res==-1){ 

event_debug(("%s:dispatch returned unsuccessfully.",__func_  )); 
retval=-1; 

goto done; 

} 

update_time_cache(base);/* 将 时 间 缓 存 更 新 为 当前 系统 时 间 */ 

/* 检 查 时 间 堆 上 的 到 期 事件 并 依次 执行 之 */ 

timeout_process(base); 

if(N_ACTIVE_CALLBACKS(base) ){ 

/* 调 用 event_process_active 函 数 依次 处 理 就 绪 的 信号 事件 和 IV0 事 件 */ 


jpl 
Bl 
全 


F 插 入 活动 事件 队列 */ 


int n=event_process_active(base ) ; 
if((flags&EVLOOP_ONCE) 

K&N _ACTIVE CALLBACKS (base)==0 
Kn!=0) 

done=1; 

}else if(flags&EVLOOP_NONBLOCK) 
done=1; 


event_debug(("%s:asked to terminate loop.",__func )); 
done: 

/* 事 件 循 环 结束 ， 清 空 时 间 缓 存 ， 并 设置 停止 循环 标志 */ 
clear_time_cache(base); 

base->running_loop=0; 

EVBASE_RELEASE_ LOCK(base, th_base_lock); 
return(retval); 


} 


至 此 ， 我 们 简要 介绍 了 Libevent 库 的 核心 代码 ， 但 这 些 还 远 远 不 
人 够 。 要 理解 Libevent 的 设计 理念 以 及 实现 上 的 细 贡 考虑 ， 读 者 最 好 目 
己 深 入 分 析 其 每 一 行 代码 。 


第 13 草 ”多 进程 编程 


进程 是 Linux 操 作 系统 环境 的 基础 ， 它 控制 着 系统 上 几乎 所 有 的 活 
动 。 本 章 从 系统 程序 员 的 角度 来 讨论 Linux 多 进程 编程 ， 包 括 如 下 内 


只 


口 复 制 进程 映像 的 fork 系 统 调用 和 礁 换 进程 映像 的 exec 系 列 系统 调 


口 僵尸 进程 以 及 如 何 避 免 僵尸 进程 。 


口 进 程 间 通信 (Inter-Process Communication，IPC) 最 简单 的 方 


式 : 管道 = 


口 3 种 System V 进 程 间 通 信 方 式 : 信号 量 、 消 息 队列 和 共享 内 存 。 
它们 都 是 由 AT&T System V2 版 本 的 UNIX 引 入 的 ， 所 以 统称 为 System 


V IPC 。 


口 在 进程 间 传 递 文件 描述 符 的 通用 方法 :通过 UNIX 本 地 域 socket 
传递 特殊 的 辅助 数据 (关于 辅助 数据 ， 参 考 5.8.3 小 节 ) 。 


13.1 fork 系 统 调 用 


Linux 下 创建 靳 进程 的 系统 调用 是 fork。 其 定义 如 下 : 


#include<sys/types.h> 
#include<unistd.h> 
pid_t fork(void); 


该 贸 数 的 每 次 调用 都 返回 两 次 ， 在 父 进 程 中 返回 的 是 子 进程 的 
PID， 在 子 进程 中 则 返回 90。 该 返回 值 是 后 续 代码 判断 当前 进程 是 父 进 
程 还 是 子 进 程 的 依据 。fork 调 用 失败 时 返回 -1， 并 设置 errno。 


fork 函 数 复 制 当 前 进程 ， 在 内 核 进程 表 中 创建 一 个 新 的 进程 表 
项 。 痢 的 进程 表 项 有 很 多 属性 和 原 进程 相同 ， 比 如 扒 指 针 、 栈 指针 和 
标志 寄存 融 的 值 。 但 也 有 许多 属性 被 赋予 了 新 的 值 ， 比 如 该 进程 的 
PPID 被 设置 成 原 进程 的 PID， 信 和 号 位 图 被 清除 ( 原 进程 设置 的 信号 处 
理 函 数 不 再 对 新 进程 起 作用 ) 。 


子 进 程 的 代码 与 父 进程 完全 相同 ， 同 时 它 还 会 复制 父 进程 的 数据 
( 推 数据 、 栈 数据 和 静态 数据 ) 。 数 据 的 复制 采用 的 是 所 谓 的 写 时 复 
制 (copy on writte) ， 即 只 有 在 任 一 进程 〈 父 进程 或 子 进程 ) 对 数据 
执行 了 写 操作 时 ， 复 制 才 会 发 生 (先是 缺 页 中 断 ， 然 后 操作 系统 给 
进程 分 配 内 存 并 复制 父 进 程 的 数据 ) 。 即 便 如 此 ， 如 果 我 们 在 程序 中 
分 配 了 大 量 内 存 ， 那 么 使 用 fork 时 也 应 当 十 分 谍 慎 ， 尺 量 避 人 免 没 必要 
的 内 存 分 配 和 数据 复制 。 


此 外 ， 创 建 子 进 程 后 ， 父 进程 中 打开 的 文件 描述 符 默 认 在 子 进 程 
中 也 是 打开 的 ， 且 文件 描述 符 的 引用 计数 加 1。 不 仅 如 此 ， 父 进程 的 用 
户 根 目 未 、 当 前 工作 目录 等 变量 的 引用 计数 均 会 加 1 。 


13.2 ”exec 系列 系统 调用 


有 时 我 们 需要 在 子 进 程 中 执行 其 他 程序 ， 即 奉 换 当前 进程 映像 ， 
这 束 需 要 使 用 如 下 exec 系 列 函 数 之 一 : 


#include<unistd.h> 
extern char**environ; 
int execl(const char*path,const char*arg,...); 
int execlp(const char*file,const char*arg,...); 
int execle(const char*path,const char*arg,...,char*const 
envp[ 1); 
int execv(const char*path,char*const argv[]); 
int execvp(const char*file,char*const argv[]); 
int execve(const char*path,char*const argv[],char*const envp[]); 


path 参 数 指定 可 执行 文件 的 完整 路 径 ，file 参 数 可 以 接受 文件 名 ， 
该 文件 的 具体 位 置 则 在 环境 变量 PATH 中 搜寻 。arg 接 受 可 变 参数 ，argv 
则 接受 参数 数组 ， 它 们 都 会 被 传递 给 新 程序 (path 或 file 指 定 的 程序 ) 
的 main 函 数 。envp 人 参数 用 于 设置 新 程序 的 环境 变量 。 如 采 未 设置 它 ， 
则 新 程序 将 使 用 由 全 局 变量 environ 指 定 的 环境 变量 。 


一 般 情 况 下 ，exec 范 数 是 不 返回 的 ， 除 非 出 错 。 它 出 错时 返 
回 -1， 并 设置 errno。 如 果 没 出 错 ， 则 原 程序 中 exec 调 用 之 后 的 代码 都 
` 会 执行 ， 因 为 此 时 原 程 序 已 经 被 exec 的 参数 指定 的 程序 完全 替换 
(包括 代码 和 数据 ) 。 


exec 男 数 不 会 关闭 原 程 序 打 开 的 文件 描述 符 ， 除 非 该 文件 描述 符 
被 设置 了 类 似 SOCK_CLOEXEC 的 属性 ( 见 5.2 节 ) 。 


133 站 理 信 性 进程 


对 于 多 进程 程序 而 言 ， 父 进程 一 般 需 要 跟踪 子 进程 的 退出 状态 。 
因此 ， 当 子 进程 结束 运行 时 ， 内 核 不 会 立即 释放 该 进程 的 进程 表 表 
项 ， 以 满足 父 进 程 后 续 对 该 子 进 程 退出 信息 的 查询 (如 果 父 进程 还 在 

了 ) 。 在 子 进程 结束 运行 之 后 ， 父 进程 读 取 其 退出 状态 之 前 ， 我 们 
称 该 子 进程 处 于 僵尸 仿 。 另 外 一 种 使 子 进程 进入 僵尸 态 的 情况 是 : 父 
进程 结束 或 者 异常 终止 ， 而 子 进程 继续 运行 。 此 时 子 进程 的 PPID 将 被 
操作 系统 设置 为 1， 即 init 进 程 。init 进 程 接 管 了 该 子 进程 ， 并 等 待 它 结 
束 。 在 父 进程 退出 之 后 ， 子 进程 退出 之 前 ， 该 子 进程 处 于 僵尸 仿 。 


由 此 可 见 ， 无 论 哪 种 情况 ， 如 琳 父 进程 没有 正确 地 处 理子 进程 的 
返回 信息 ， 子 进程 都 将 停留 在 僵尸 态 ， 并 占据 着 内 核资 源 。 这 有 是 绝对 
能 容许 的 ， 毕 况 内 核资 源 有 限 。 下 面 这 对 函数 在 父 进程 中 调用 ， 以 
等 行 子 进程 的 结束 ， 并 获取 子 进 程 的 返回 信息 ， 从 而 避免 了 僵尸 进程 
的 产生 ， 或 者 使 子 进程 的 僵尸 态 立 即 结束 : 


| 


#include<sys/types.h> 

#include< sys/wait.h> 

pid_t wait(int*stat_loc); 

pid_t waitpid(pid t pid,int*stat_loc,int options); 


wait 芳 数 将 阻塞 进程 ， 直 到 该 进程 的 某 个 子 进 程 结束 运行 为 止 。 它 
返回 结束 运行 的 于 进程 的 PID， 并 将 该 子 进程 的 退出 状态 信息 存储 于 


stat_loc 参 数 指 回 的 内 存 中 。sys/waith 头 文件 中 定义 了 几 个 宏 来 帮助 解 
释 子 进程 的 退出 状态 信息 ， 如 表 13-1 所 示 。 


表 13-1 子 进程 状态 信息 
含义 

如 果子 进程 正常 结束 ， 它 就 返回 一 个 非 0 值 
如 果 WIFEXITED 非 0， 它 返回 子 进程 的 退出 码 
如 果子 进程 是 因为 一 个 未 捕获 的 信号 而 终止 ， 它 就 返回 一 个 非 0 值 
如 果 WIFSIGNALED 非 0， 它 返回 一 个 信和 号 值 
如 果子 进程 意外 终止 ， 它 就 返回 一 个 非 0 值 
如 果 WIFSTOPPED 非 0， 它 返回 一 个 信和 号 值 


宏 
WIFEXITED( stat_val ) 
WEXITSTATUS( stat val ) 
WIFSIGNALED!( stat val ) 
WTERMSIG( stat_val ) 
WIFSTOPPED! stat_val ) 
WSTOPSIG( stat_val ) 


wait 函 数 的 阻塞 特性 显然 不 是 服务 器 程序 期 望 的 ， 而 waitpid 函 数 解 
决 了 这 个 问题 。waitpid 只 等 待 由 pid 参 数 指定 的 子 进程 。 如 果 pid 取 值 
为 -1， 那 么 它 就 和 wait 函 数 相 同 ， 即 等 待 任意 一 个 子 进程 结束 。stat_loc 
参数 的 舍 义 和 wait 函 数 的 stat_loc 参 数 相 同 。options 参 数 可 以 控制 waitpid 
函数 的 行为 。 该 参数 最 疝 用 的 取 值 是 WNOHANG“。 当 options 的 取 值 站 
WNOHANG 时 ，waitpid 调 用 将 是 非 阻 窄 的 :如 采 pid 指 定 的 目标 子 进程 
还 没有 结束 或 意外 终止 ， 则 waitpid 立 即 返回 0， 如 果 目 标 子 进程 确实 正 

退出 了 ， 则 waitpid 返 回 该 子 进程 的 PID。waitpid 调 用 失败 时 返回 -1 并 
设置 errno。 


S 


8.3 方 曾 提 到 ， 要 在 事件 已 经 发 生 的 情况 下 执行 非 阻塞 调用 才能 提 
高 程序 的 效率 。 对 waitpid 函 数 而 言 ， 我 们 最 好 在 某 个 子 进程 退出 之 后 
再 调用 它 。 那 么 父 进 程 从 何 得 知 某 个 子 进程 已 经 退出 了 呢 ? 这 正 是 
SIGCHLD 信 和 号 的 用 途 。 当 一 个 进程 结束 时 ， 它 将 给 其 父 进程 发 送 一 个 


SIGCHLD 信 和 号。 因此， 我 们 可 以 在 父 进程 中 捕获 SIGCHLD 信 号 ， 并 在 
言 号 处 理 函 数 中 调用 waitpid 函 数 以 “彻底 结束 ”一 个 子 进程 ， 如 代码 清 
单 13-1 所 示 。 


代码 清单 13-1 SIGCHLD 信号 的 典型 处 理 函 数 


static void handle_ child(int sig) 


{ 

pid_t pid; 

int stat; 

while( (pid=waitpid(-1,&stat,WwNOHANG))>0) 


{ 
/* 对 结束 的 子 进 程 进行 善后 处 理 */ 
} 
} 


13.4 管道 


第 6 章 中 我 们 介绍 过 创建 管道 的 系统 调用 pipe， 我 们 也 多 次 在 代码 
中 利用 它 来 实现 进程 内 部 的 通信 。 实 际 上 ， 管 着 也 是 父 进 程 和 了 于 进程 
间 通 信 的 第 用 手段 。 


管道 能 在 父 、 了 于 进程 间 传 递 数据 ， 利 用 的 是 fork 调 用 之 后 两 个 管道 
文件 描述 符 (fd[0] 和 fd[1]) 都 保持 打开 。 一 对 这 样 的 文件 描述 符 只 能 
保证 父 、 子 进程 间 一 个 方 同 的 数据 传输 ， 父 进程 和 子 进程 必须 有 一 个 
天 闭 fd[0]， 男 一 个 关闭 fd[1]。 比如 ， 我 们 要 使 用 管道 实现 从 父 进 程 癌 
子 进程 写 数据 ， 束 应 该 按照 图 13-1 所 示 来 操作 。 


close (fd[0]) 


close (fd[1]) 
数据 流 问 


图 13-1 父 进程 通过 管道 癌 子 进程 写 数 据 
显然 ， 如 果 要 实现 父 、 子 进程 之 间 的 双向 数据 传输 ， 就 必须 使 用 


两 个 管道 。 第 6 章 中 我 们 还 介绍 过 ，socket 编 程 接口 提供 了 一 个 创建 全 
双 工 管道 的 系统 调用 : socketpair。squid 服 务 器 程序 〈 见 第 4 章 ) 就 是 利 


用 socketpair 创 建 管道 ， 以 实现 在 父 进程 和 日 志 服 务 子 进程 之 间 传 递 
志 信 息 ， 下 面 我 们 倘 单 地 分 析 之 。 在 测试 机 器 Kongming20 上 有 如 下 环 


境 : 


$ps-ef|grep squid 

root 12489 1 0 20:37?00:00:00 squid 

squid 12491 12489 9 20:37?00:00:02(squid-1) 

squid 12492 12491 0 20:37?00:00:00(logfile- 
daemon)/var/l0g/squid/access.10og 

squid 12493 12491 0 20:37?00:00:00(unlinkd) 

$sudo lsof-p 12491 

squid 12491 squid 9u unix Oxeaf2b440 0Ot0 40603 socket 

$sudo lsof-p 12492 

log_file 12492 squid Qu unix Oxeaf2b680 0Ot0 40604 socket 

log_file 12492 squid 1u unix Oxeaf2b680 0Ot0 40604 socket 

log_file 12492 squid 2u CHR 1,3 0t0 4449/dev/null 

log_file 12492 squid 3w REG 8,3 202 
271412/var/log/squid/access.10og 


这 些 输出 说 明 Kongming20 上 开启 了 squid 服 务 。 该 服务 创建 了 几 个 
子 进 程 ， 其 中 子 进程 12492 专 | 门 用 于 输出 日 志 到 /var/log/squid/access.log 
文件 。 父 进程 12491 使 用 socketpair 创 建 了 一 对 UNIX 域 socket， 然 后 关闭 
了 其 中 的 一 个 ， 简 下 的 那个 socket 的 值 是 9。 子 进程 12492 则 从 父 进 程 
12491 继 承 了 这 一 对 UNIX 域 socket， 并 关闭 了 其 中 的 另外 一 个 ， 剩 下 的 
那个 socket 则 被 dup 到 标准 输入 和 标准 输出 上 。 下 面 我 们 telnet 到 squid 服 
务 上 ， 并 向 它 发 送 部 分 数据 。 同 时 开启 另外 两 个 终端 ， 分 别 运 行 strace 
命令 以 查看 进程 12491 和 12492 在 这 个 过 程 中 交换 的 数据 。 具 体操 作 如 
代码 清单 13-2 所 示 。 


代码 清单 13-2” 用 strace 命 令 查 看 管道 通信 


$telnet 192.168.1.109 squid 
Trying 192.168.1.109... 
Connected to 192.168.1.109. 
Escape character is'^]'. 


a ( 回 车 ) 

$sudo strace-p 12491 

write(9,"L1338385956.213 40 192.168.1"...,104)=104 
$sudo strace-p 12492 

read(0, "L1338385956.213 40 192.168.1"...,4096)=104 
write(3,"1338385956.213 40 192.168.1."...,101)=101 


由 此 可 见 ， 进 程 12491 接 收 到 客户 数据 后 将 日 志 信 息 输 出 至 管道 
( 写 文 件 描述 符 9) 。 日 志 服 务 子 进 程 使 用 阻塞 读 操 作 等 待 管道 上 有 数 
据 可 读 〈 读 文件 描述 符 0) ， 然 后 将 读 取 到 的 日 志 信 息 
入 /varlog/squid/access.log 文 件 〈 写 文件 描述 符 3) 。 


不 过 ， 管 道 只 能 用 于 有 关联 的 两 个 进程 (比如 父 、 子 进程 ， 间 的 
通信 。 而 下 面 要 讨论 的 3 种 System V IPC 能 用 于 无 关联 的 多 个 进程 之 间 
的 通信 ， 因 为 它们 都 使 用 一 个 全 局 唯一 的 键 值 来 标识 一 条 信道 。 不 
， 有 一 种 特殊 的 管道 称 为 FIFO (1 (First In First Out， 先 进 先 出 ) ， 
也 叫 命名 管道 。 它 也 能 用 于 无 关联 进程 之 间 的 通信 。 因 为 FIFO 管 道 在 
网 络 编程 中 使 用 不 多 ， 所 以 本 书 不 讨论 它 。 


[1] 这 里 要 注意 一 人 下， 虽然 这 种 特殊 的 管道 被 专门 命名 为 FIFO ， 但 并 不 
征 只 有 这 种 管道 才 遭 循 先 进 和 匈 出 的 原则 ， 其 实 所 有 的 管道 都 齐 循 和 匈 进 
先 出 的 原则 。 


13.5 ”信号 量 


13.5.1 信号 量 原 语 


当 多 个 进程 同时 访问 系统 上 的 某 个 资源 的 时 候 ， 比 如 同时 写 一 个 
数据 库 的 某 条 记录 ， 或 者 同时 修改 某 个 文件 ， 台 需要 考虑 进程 的 同步 
问题 ， 以 确保 任 一 时 刻 只 有 一 个 进程 可 以 拥有 对 资源 的 独占 式 访问 。 
通常 ， 程 序 对 共享 资源 的 访问 的 代码 只 是 很 短 的 一 段 ， 但 就 是 这 一 段 
代码 引发 了 进程 之 间 的 苋 仿 条 件 。 我 们 称 这 段 代 码 为 天 键 代码 段 ， 或 
性 临界 区 。 对 进程 同步 ， 也 就 是 确保 任 一 时 刻 只 有 一 个 进程 能 进入 关 
键 代 码 段 。 


要 编写 具有 通用 目的 的 代码 ， 以 确保 关键 代码 段 的 独占 式 访问 是 
非常 困难 的 。 有 两 个 名 为 Dekker 算 法 和 Peterson 算 法 的 解决 方案 ， 它 们 
试图 从 语言 本 身 (不 需要 内 核 文 持 ) 解决 并 发 问题 。 但 它们 依赖 于 忙 
等 待 ， 即 进程 要 持续 不 断 地 等 竺 某 个 内 存 位 置 状态 的 改变 。 这 种 方式 
下 CPU 利 用 率 太 低 ， 显 然 是 不 可 取 的 。 


Dijkstra 提 出 的 信号 量 (Semaphore) 概念 是 并 发 编程 领域 迈 出 的 重 
要 一 步 。 信 和 号 量 是 一 种 特殊 的 变量 ， 它 只 能 取 目 然 数 值 并 且 只 文 持 两 
种 操作 : 等待 (wait) 和 信号 (signal) 。 不 过 在 LinuxUNIX 中 , “等 
待 ? 和 ”信和 号 ?都 已 经 具有 特殊 的 舍 义 ， 所 以 对 信和 号 量 的 这 两 种 操作 更 常 


用 的 称呼 是 P、V 操 作 。 这 两 个 字母 来 自 于 集 兰 语 单词 passeren (传递 ， 
就 好 像 进 入 临界 区 ) 和 vrijgeven (释放 ， 就 好 像 退 出 临界 区 ) 。 假 设 有 
言 号 量 SV， 则 对 它 的 P、V 操 作 含 义 如 下 : 


口 PCSV)， 如 果 SV 的 值 大 于 0， 就 将 它 减 1;， 如果 SV 的 值 为 0， 则 挂 
起 进程 的 执行 。 


口 VGSV)， 如 果 有 其 他 进程 因为 等 待 SV 而 挂 起 ， 则 唤醒 之 ; 如 果 没 
有 ， 则 将 SV 加 1。 


信号 量 的 取 值 可 以 是 任何 卓然 数 。 但 最 第 用 的 、 最 简单 的 信号 量 
二 进 制 信号 量 ， 能 取 0 和 1 这 两 个 值 。 本 书 仅 讨 论 二 进 制 信号 
° 使 用 二 进 制 信号 量 同步 两 个 进程 ， 以 确保 关键 代码 段 的 独占 式 访 
问 的 一 个 典型 例子 如 图 13-2 所 示 。 


进程 A 的 非 关 键 关键 进程 B 的 非 关 键 
代码 代码 段 代码 


图 13-2 使 用 信号 量 保护 关键 代码 段 


在 图 13-2 中 ， 当 关键 代码 段 可 用 时 ， 二 进 制 信号 量 SV 的 值 为 1， 进 
程 A 和 B 都 有 机 会 进入 关键 代码 段 。 如 果 此 时 进程 A 执行 了 P(SV) 操 作 将 
SV 减 1， 则 进程 B 若 再 执行 P(SV) 操 作 就 会 被 挂 起 。 直 到 进程 A 离开 关键 
代码 段 ， 并 执行 V(SV) 操 作 将 SV 加 1， 关 键 代 码 段 才 重 新 变 得 可 用 。 如 
果 此 时 进程 B 因 为 等 待 SV 而 处 于 挂 起 状态 ， 则 它 将 被 唤醒 ， 并 进入 关 
键 代码 段 。 同 样 ， 这 时 进程 A 如 果 再 执行 PCSV) 操 作 ， 则 也 只 能 被 操作 
系统 挂 起 以 等 待 进程 B 退 出 关键 代码 段 。 


注意 ”使 用 一 个 普通 变量 来 模拟 二 进 制 信号 量 是 行 不 通 的 ， 因 为 
所 有 高 级 语言 都 没有 一 个 原子 操作 可 以 同时 完成 如 下 两 步 操作 : 检测 


变量 是 否 为 true/false， 如 果 是 则 再 将 它 设置 为 false/true。 


Linux 信 号 量 的 API 都 定义 在 sys/sem.h 头 文件 中 ， 主 要 包含 3 个 系统 
调用 : semget、semop 和 semctl。 它 们 都 被 设计 为 操作 一 组 信号 量 ， 即 
信号 量 集 ， 而 不 是 单个 信号 量 ， 因 此 这 些 接口 看 上 去 多 少 比 我 们 期 望 


的 要 复杂 一 点 。 我 们 将 分 3 小 节 依 次 讨论 之 。 
13.5.2 ”semget 系 统 调用 


semget 系 统 调用 创建 一 个 新 的 信和 号 量 集 ， 或 者 获取 一 个 已 经 存在 的 


信和 号 量 集 。 其 定义 如 下 : 


#include<sys/sem.h> 
int semget(key_t key,int num_sems,int sem flags); 


key 参 数 古 一 个 键 值 ， 用 来 标识 一 个 全 局 唯一 的 信号 量 集 ， 整 像 文 
件 名 全 局 唯一 地 标识 一 个 文件 一 样 。 要 通过 信和 号 量 通信 的 进程 需要 使 
用 相同 的 键 值 来 创建 /获取 该 信号 量 。 


num_sems 人 参数 指定 要 创建 /获取 的 信号 量 集 中 信号 量 的 数目 。 如 果 
征 创建 信号 量 ， 则 该 值 必须 被 指定 ;如果 有 是 获取 已 经 存在 的 信号 量 ， 
则 可 以 把 它 设置 为 0。 


sem_flags 人 参数 指定 一 组 标志 。 它 低 端的 9 个 比特 是 该 信号 量 的 权 
限 ， 其 格式 和 含义 都 与 系统 调用 open 的 mode 参 数 相 同 。 此 外 ， 它 还 可 
以 和 IPC_CREAT 标 志 做 按 位 “或 "运算 以 创建 新 的 信号 量 集 。 此 时 即使 
信号 量 已 经 存在 ，semget 也 不 会 产生 错误 。 我 们 还 可 以 联合 使 用 
IPC_CREAT 和 IPC_EXCL 标 志 来 确保 创建 一 组 新 的 、 唯 一 的 信号 量 
集 。 在 这 种 情况 下 ， 如 果 信 号 量 集 已 经 存在 ， 则 semget 返 回 错误 并 设置 
errno 为 EEXIST。 这 种 创建 信号 量 的 行为 与 用 O_CREAT 和 O_EXCL 标 志 
调用 open 来 排他 式 地 打开 一 个 文件 相似 。 


semget 成 功 时 返回 一 个 正 整数 值 ， 它 是 信和 号 量 集 的 标识 符 ;， semget 


失败 时 返回 -1， 并 设置 errmno。 


如 果 semget 用 于 创建 信号 量 集 ， 则 与 之 关联 的 内 核 数 据 结构 体 
semid ds 将 被 创建 并 初始 化 。semid ds 结构 体 的 定义 如 下 : 


本 h > 
/* 该 结构 体 用 于 描述 ITPC 对 象 《信号 量 、 共 享 内 存 和 消息 队列 ) 的 权限 */ 


struct ipc_perm 


{ 

key_t key;/* 键 值 */ 

uid_t uid;/* 所 有 者 的 有 效用 户 ID*/ 

gid_t gid;/* 所 有 者 的 有 效 组 ID*/ 

uid_t cuid;/* 创 建 者 的 有 效用 户 ID*/ 

gid_t cgid;/* 创 建 考 的 有 效 组 ID*/ 

mode_t mode;/* 访 问 权 限 */ 

/* 省 略 其 他 填充 字段 */ 

} 

struct semid_ds 

{ 

struct ipc_perm sem_perm;/* 信 号 量 的 操作 权限 */ 
unsigned long int sem_nsems;/* 该 信号 量 集中 的 信号 量 数目 */ 
time_t sem_otime;/* 最 后 一 次 调用 semop 的 时 间 */ 
time_t Sh trie 一 次 调用 semct1 的 时 间 */ 
/* 省 略 其 他 填充 字段 */ 

}; 


semget 对 semid_ds 结 构 体 的 初始 化 包括 : 

口 将 sem_perm.cuid 和 sem_perm.uid 设 置 为 调用 进程 的 有 效用 户 ID。 
口 将 sem_perm.cgid 和 sem_perm.gid 设 置 为 调用 进程 的 有 效 组 ID 。 
口 将 sem_perm.mode 的 最 低 9 位 设置 为 sm_flags 参 数 的 最 低 9 位 。 
口 将 sem_nsems 设 置 为 num_sems。 

口 将 sem_otime 设 置 为 0。 


口 将 sem_ctime 设 置 为 当前 的 系统 时 间 。 


13.5.3 ”semop 系 统 调 用 


semop 系 统 调 用 改变 信号 量 的 值 ， 即 执行 P、V 操 作 。 在 讨论 semop 
之 前 ， 我 们 需要 先 介绍 与 每 个 信号 量 关 联 的 一 些 重要 的 内 核 变 量 : 


unsigned short Semval 

/* 信 号 量 的 值 */ 

unsigned Short Semzcnt ; 

/* 等 待 信号 量 值 变 为 6 的 进程 数 量 */ 
unsigned short semncnt; 

/* 等 待 信号 量 值 增加 的 进程 量 */ 
pid_ t sempid; 

/* 最 后 一 次 执行 Semop 操 作 的 进程 TD*/ 


semop 对 信号 量 的 操作 实际 上 了 吏 是 对 这 些 内 核 变量 的 操作 。semop 
的 定义 如 下 : ##include <sys/sem.h> 


int semop(int sem_ id,struct sembuf*sem ops,size t num_ sem ops ) ， 
PS)v 


sem_id 参 数 是 由 semget 调 用 返回 的 信号 量 集 标识 符 ， 用 以 指定 被 操 
作 的 目标 信号 量 集 。sem_ops 参 数 指 回 一 个 sembuf 结 构 体 类 型 的 数组 ， 
sembuf 结 构 体 的 定义 如 下 : 

struct sembuf{ 
unsigned short int sem num;short int sem _op; 


Short int sem flg; 


} 


其 中 ，sem_num 成 员 是 信号 量 集中 信和 与 量 的 编写 ，0 表 示 信 号 量 集 


中 的 第 一 个 信号 量 。sem_op 成 员 指 定 操作 类 型 ， 其 可 选 值 为 正 整 数 、0 


和 人 负 整 数 。 每 种 类 型 的 操作 的 行为 又 受到 sem_flg 成 员 的 影响 。sem flg 
的 可 选 值 是 IPC_NOWAIT 和 SEM_UNDO。IPC_NOWAIT 的 含义 是 , 无 
论 信 号 量 操 作 是 否 成 功 ，semop 调 用 都 将 立即 返回 ， 这 类 似 于 非 阻塞 
IO 操作 。SEM_UNDO 的 含义 是 ， 当 进程 退出 时 取消 正在 进行 的 semop 
操作 。 具 体 来 说 ，sem_op 和 和 sem _flg 将 按照 如 下 方式 来 影响 semop 的 行 
为 : 


口 如 采 sem_op 大 于 0， 则 semop 将 被 操作 的 信号 量 的 值 semval 增 加 
sem_op。 该 操作 要 求 调用 进程 对 被 操作 信和 号 量 集 拥 有 写 权 限 。 此 时 大 
设置 了 SEM_UNDO 标 志 ， 则 系统 将 更 新 进程 的 semadj 变 量 (用 以 跟踪 
进程 对 信和 号 量 的 修改 情况 ) 。 


口 如 果 sem_op 等 于 0， 则 表示 这 是 一 个 “等 待 0” (wait-for-zero) 操 
作 。 该 操作 要 求 调用 进程 对 被 操作 信号 量 集 拥有 读 权限 。 如 果 此 时 信 
号 量 的 值 是 0， 则 调用 立即 成 功 返 回 。 如 果 信 和 号 量 的 值 不 是 0， 则 semop 
失败 返回 或 者 阻塞 进程 以 等 待 信号 量变 为 0。 在 这 种 情况 下 ， 当 
IPC_NOWAIT 标 志 被 指定 时 ，semop 立 即 返回 一 个 错误 ， 并 设置 ermo 为 


EAGAIN。 如 果 未 指定 IPC_NOWAIT 标 志 ， 则 信和 号 量 的 semzcnt 值 加 1， 
进程 被 投入 睡眠 直到 下 列 3 个 条 件 之 一 发 生 : 信号 量 的 值 semval 变 为 0， 
此 时 系统 将 该 信号 量 的 semzcnt 值 减 1， 被 操作 信号 量 所 在 的 信号 量 集 被 
进程 移 除 ， 此 时 semop 调 用 失败 返回 ，errno 被 设置 为 EIDRM; 调用 被 


言 号 中 断 ， 此 时 semop 调 用 失败 返回 ，errmo 补 设置 为 EINTR， 同 时 系统 


将 该 信号 量 的 semzcnt 值 减 1。 


口 如 果 sem_op 小 于 0， 则 表示 对 信和 号 量 值 进行 减 操作 ， 即 期 望 获得 
信号 量 。 该 操作 要 求 调用 进程 对 被 操作 信号 量 集 拥有 写 权 限 。 如 果 信 
号 量 的 值 smval 大 于 或 等 于 sem_op 的 绝对 值 ， 则 semop 操 作成 功 ， 调 用 
进程 立即 获得 信号 量 ， 并 且 系 统 将 该 信号 量 的 semval 值 减 去 sem_op 的 
绝对 值 。 此 时 如 果 设 置 了 SEM_UNDO 标 志 ， 则 系统 将 更 新 进程 的 
semadj 变 量 。 如 果 信 号 量 的 值 smval 小 于 sem_op 的 绝对 值 ， 则 semop 失 
败 返 回 或 者 阻塞 进程 以 等 待 信号 量 可 用 。 在 这 种 情况 下 ， 当 
IPC_NOWAIT 标 志 被 指定 时 ，semop 立 即 返回 一 个 错误 ， 并 设置 ermo 为 


Ye 


EAGAIN。 如 果 未 指定 IPC_NOWAIT 标 志 ， 则 信号 量 的 semncnt 值 加 1， 
进程 被 投入 睡眠 直到 下 列 3 个 条 件 之 一 发 生 : 信号 量 的 值 smval 变 得 大 
于 或 等 于 sem_op 的 绝对 值 ， 此 时 系统 将 该 信号 量 的 semncnt 值 减 1， 并 
将 semval 减 去 sem_op 的 绝对 值 ， 同 时 ， 如 果 SEM_UNDO 标 志 被 设置 ， 
则 系统 更 新 semadj 变 量 ; 被 操作 信和 号 量 所 在 的 信号 量 集 被 进程 移 除 ， 此 
时 semop 调 用 失败 返回 ，erro 被 设置 为 EIDRM; 调用 被 信号 中 断 ， 此 
时 semop 调 用 失败 返回 ，ermo 被 设置 为 EINTR， 同 时 系统 将 该 信号 量 的 


semncnt 值 减 1。 


semop 系 统 调用 的 第 3 个 参数 num_sem_ops 指 定 要 执行 的 操作 个 
数 ， 即 sem_ops 数 组 中 元 素 的 个 数 。semop 对 数组 sem_ops 中 的 每 个 成 员 


按照 数组 顺序 依次 执行 操作 ， 并 且 该 过 程 是 原子 操作 ， 以 避免 别 的 进 
程 在 同一 时 刻 按照 不 同 的 顺序 对 该 信号 集中 的 信号 量 执行 Semop 操 作 导 
致 的 竞 态 条 件 。 


semop 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errmno。 失 败 的 时 候 ， 
sem_ops 数 组 中 指定 的 所 有 操作 都 不 被 执行 。 


13.5.4 ”semctl 系 统 调用 


semctl 系 统 调用 允许 调用 者 对 信号 量 进行 直接 控制 。 其 定义 如 下 : 


#include<sys/sem.h> 
int semctl(int sem id,int sem num,int command,...); 


sem_id 参 数 是 由 semget 调 用 返回 的 信和 号 量 集 标识 符 ， 用 以 指定 被 操 
作 的 信号 量 集 。sem_num 人 参数 指 定 家 操作 的 信号 量 在 信号 量 集中 的 纺 
号 。command 参 数 指定 要 执行 的 命令 。 有 的 命令 需要 调用 者 传递 第 4 个 
参数 。 第 4 个 参数 的 类 型 由 用 户 日 己 定 义 ， 但 sys/sem.h 尖 文件 给 出 了 它 
的 推荐 格式 ， 具 体 如 下 : 


union semun 


{ 

int val;/* 用 于 SETVAL 命 令 */ 

struct semid_ds*buf;/* 用 于 IPC_STAT 和 IPC_SET 命 令 */ 
unsigned short*array;/* 用 于 GETALL 和 SETALL 命 令 */ 
struct seminfo* _buf;/* 用 于 IPC_INFO 命 令 */ 

}; 


struct seminfo 


int semmap;/*Linux 内 核 没 有 使 用 */ 

int semmni;/* 系 统 最 多 可 以 拥有 的 信号 量 集 数目 */ 

int semmns;/* 系 统 最 多 可 以 拥有 的 信号 量 数 目 */ 

int semmnu; /*Linux 内 核 没有 使 用 */ 

int semmsl;/* 一 个 信号 量 集 最 多 允许 包含 的 信号 量 数 目 */ 
int semopm;/*semop 一 次 最 多 能 执行 的 sem_op 操 作 数 目 */ 
int semume;/*Linux 内 核 没 有 使 用 */ 

int semusz;/*sem_undo 结 构 体 的 大 小 */ 

int semvmx;/* 最 大 允许 的 信号 量 值 */ 

/* 最 多 允许 的 UND0 次 数 ( 带 SEM_UND0 标 志 的 semop 操 作 的 次 数 ) 
Int semaem; 


}; 


semctl 支 持 的 所 有 命令 如 表 13-2 所 示 。 


命 令 
IPC_STAT 


IPC_SET 


IPC_ RMID 


IPC_INFO 


SEM INFO 


SEM_STAT | 


GETALL 


GETNCNT 
GETPID 
GETVAL 
GETZCNT 


SETALL 


SETVAL 


表 13-2 semctl 的 command 参数 


含 义 semctl 成 功 时 的 返回 值 
各 信号 量 集 关 联 的 内 核 数据 结构 复制 到 semun.buf 中 0 
semun.buf 中 的 部 分 成 员 复制 到 信号 量 集 关联 的 内 核 数 a 
据 结构 中 ， 同 时 内 核 数据 中 的 semid_ds.sem_ctime 被 更 新 
立即 移 除 信号 量 集 ， 唤 醒 所 有 等 待 该 信号 量 集 的 进程 6 


(semop 返回 错误 ， 并 设置 errno 为 EIDRM) 

获取 系统 信号 量 资源 配置 信息 ， 将 结果 存储 在 semun._buf | 内核 信号 量 集 数组 中 已 经 被 使 用 的 
中 。 这 些 信息 的 含义 见 结构 体 seminfo 的 注释 部 分 项 的 最 大 索引 值 

与 IPC_INFO 类 似 ， 不 过 semun. bufsemusz 被 设置 为 系 
统 目前 拥有 的 信号 量 集 数目 ， 而 semnu. buf.semaem 被 设置 | 同 IPC_ INFO 
号 量 数目 

与 IPC_STAT 类 似 ， 不 过 此 时 sem_id 参数 不 是 用 来 表示 信 

号 量 集 标识 符 ， 而 是 内 核 中 信号 量 集 数组 的 索引 (系统 的 所 
有 信号 量 集 都 是 该 数组 中 的 一 项 ) 

将 由 sem_id 标识 的 信号 量 集中 的 所 有 信号 量 的 semval 值 


内 核 信 号 量 集 数组 中 索引 值 为 sem_ 
id 的 信号 量 集 的 标识 符 


导出 到 semun.array 中 
获取 信号 量 的 semncnt 值 信号 量 的 semncnt 值 
获取 信和 号 量 的 sempid 值 信号 量 的 sempid 值 
获得 信号 量 的 semval 值 信号 量 的 semval 值 
获得 信号 量 的 semzcnt 值 信号 量 的 semzcnt 值 
用 semun.array 中 的 数据 填充 由 sem_id 标识 的 信号 量 集 

中 的 所 有 信号 量 的 semval 值 ， 同 时 内 核 数据 中 的 semid_ 0 

ds.sem_ctime 被 更 新 
将 信号 量 的 semval 值 设 置 为 semun.val， 同 时 内 核 数 据 中 6 


的 semid_ds.sem_ctime 被 更 新 


注意 ”这 些 操 作 中 ,GETNCNT 、GETPID、GETVAL 、GETZCNT 
和 SETVAL 操 作 的 是 单个 信号 量 ， 它 是 由 标识 符 sem_id 指 定 的 信号 量 集 
中 的 第 sem_num 个 信号 量 ， 而 其 他 操作 针对 的 是 整个 信号 量 集 ， 此 时 
semctl 的 参数 sem_num 被 忽略 。 


semctl 成 功 时 的 返回 值 取 决 于 command 参 数 ， 如 表 13-2 所 示 。 
semctl 失 败 时 返回 -1， 并 设置 errno。 


13.5.5 “特殊 键 值 IPC_PRIVATE 


semget 的 调用 着 可 以 给 其 key 参 数 传递 一 个 特殊 的 键 人 
IPC_PRIVATE (其 值 为 0” ， 这 样 无 论 该 信号 量 是 否 已 经 存在 ，semget 
都 将 创建 一 个 新 的 信号 量 。 使 用 该 键 值 创建 的 信号 量 并 非 像 它 的 名 字 

声称 的 那样 是 进程 私有 的 。 其 他 进程 ， 尤 其 是 子 进程 ， 也 有 方法 来 访 
问 这 个 信号 量 。 所 以 semget 的 man 手 册 的 BUGS 部 分 上 说 ， 使 用 名 字 
IPC_PRIVATE 有 些 误导 (历史 原因 ) ， 应 该 称 为 IPC_NEW。 比 如 下 面 
的 代码 清单 13-3 就 在 父 、 子 进程 间 使 用 一 个 IPC_PRIVATE 信 号 量 来 同 
步 。 


代码 清单 13-3 ”使 用 IPC_PRIVATE 信 和 号 量 


#include<sys/sem.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<unistd.h> 
#include<sys/wait.h> 


union Semun 

{ 

int val; 

struct semid ds*buf; 
unsigned short int*array; 
struct seminfo* _buf; 


}; 
/*0p 为 -1 时 执行 P 操 作 ，op 为 1 时 执行 V 操 作 */ 


void pv(int sem_id,int op) 


struct sembuf sem_b ， 

sem_b.sem num=0; 

sem_b.sem_ op=op; 
sem_b.sem_f1lg=SEM_UNDO; 
semop(sem id,&sem b,1); 

} 

int main(int argc,char*argv[]) 
{ 

int sem id=semget(IPC_PRIVATE,1,0666); 
union Semun sem_un; 
sem_un.val=1; 

semctl1(sem_ id,0,SETVAL, sem_un); 
pid_t id=fork(); 

if(id<0) 

{ 


return 1; 
} 
else if(id==0) 


printf("child try to get binary sem\n"); 

/* 在 父 、 子 进程 间 共 享 IPC_PRIVATE 信 和 号 量 的 关键 就 在 于 二 者 都 可 以 操作 该 信号 量 的 标 
识 符 sem_id*/ 

pv(sem_id, -1); 

printf("child get the sem and would release it after 5 
seconds\n"); 

sleep(5); 

pv(sem_id, 1); 

exit(0); 

} 


else 


printf("parent try to get binary sem\n"); 

pv(sem_id, -1); 

printf("parent get the sem and would release it after 5 
seconds\n"); 

sleep(5); 

pv(sem_id, 1); 

} 


waitpid(id,NULL, oO); 


semct1(sem_id,9,IPC_RMID, sem_un );/* 删 除 信 号 量 */ 


return 0) 


} 


另外 一 个 例子 是 : 工作 在 prefork 模 式 下 的 httpd 网 页 服务 器 程序 使 


用 1 个 IPC_PRIVATE 信 号 量 来 同步 各 子 进程 对 epoll_wait 的 调用 权 。 下 面 
我 们 简单 分 析 一 下 这 个 例子 。 在 测试 机 器 Kongming20 上 ， 使 用 strace 命 
令 依 次 查看 httpd 的 各 子 进 程 是 如 何 协调 工作 的 : 


$ps-ef|grep httpd 


root 1701 1 0 09:17?00:00:00/usr/sbin/httpd-k start 
:O00/usr/sbin/httpd-k 


apache 1703 1701 0 09:17?00:00 
apache 1704 1701 0 09:17?00:00: 
apache 1705 1701 0 09:17?00:00: 
apache 1706 1701 0 09:17?00:00: 
apache 1707 1701 0 09:17?00:00: 
apache 1708 1701 0 09:17?00:00: 
apache 1709 1701 0 09:17?00:00: 


apache 1710 1701 0 09:17?00:00: 


$sudo strace-p 1703 


semop (393222, {{0, -1, SEM_UNDO}}, 


$sudo strace-p 1704 


semop (393222, {{0, -1, SEM_UNDO}}, 


$sudo strace-p 1709 
epoll wait(14,{},2,10000)=0 
$sudo strace-p 1710 


semop (393222, {{0, -1, SEM_UNDO}}, 


QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 
QO/usr/sbin/httpd-k 


1 


1 


1 


由 此 可 见 ，httpd 的 子 进程 1703~1708 和 1710 都 在 等 


393222 (这 是 一 个 标识 符 ) 可 用 ; 
为 进程 1709 调 用 epoll_wait 以 等 


start 
start 
start 
start 
start 
start 
start 
start 


待 信号 量 


只 有 进程 1709 暂 时 拥有 该 信号 量 


待 新 的 客户 连接 。 当 有 新 连接 到 来 
时 ， 进 程 1709 将 接受 之 ， 并 对 信和 号 量 393222 执 行 V 操 作 ， 


此 时 将 有 另外 


一 个 子 进 程 获得 该 信号 量 并 调用 epoll_wait 来 等 待 新 的 客户 连接 。 那 么 
我 们 如 何 知 道 信 号 量 393222 是 使 用 键 值 IPC_PRIVATE 创 建 的 呢 ? 答案 
将 在 13.8 节 揭晓 。 


下 面 要 讨论 另外 两 种 IPC 一 一 共享 内 存 和 消息 队列 。 这 两 种 IPC 在 
创建 资源 的 时 候 也 支持 IPC_PRIVATE 键 值 ， 其 含义 与 信号 量 的 
IPC_PRIVATF 键 值 完全 相同 ， 不 再 著述 。 


13.6 ”共有 至 内 存 


共享 内 存 是 最 高 效 的 IPC 机 制 ， 因 为 它 不 涉及 进程 之 间 的 任何 数据 
传输 。 这 种 高 效率 市 来 的 问题 是 ， 我 们 必须 用 其 他 辅助 手段 来 同步 进 
程 对 共享 内 存 的 访问 ， 否 则 会 产生 竞 态 条 件 。 因 此 ， 共 享 内 存 通常 和 
其 他 进程 间 通 信 方 式 一 起 使 用 。 


Linux 共 享 内 存 的 API 都 定义 在 sys/shm.h 头 文件 中 ， 包 括 4 个 系统 调 
用 : shmget、shmat、shmdt 和 shmctl。 我 们 将 依次 讨论 之 。 


13.6.1 shmget 系 统 调 用 


shmget 系 统 调用 创建 一 段 新 的 共享 内 存 ， 或 者 获取 一 段 已 经 存在 
的 共享 内 存 。 其 定义 如 下 : 


#include<sys/shm.h> 
int shmget(key_t key,size_t size,int shmflg); 


和 semget 系 统 调 用 一 样 ，key 参 数 是 一 个 键 值 ， 用 来 标识 一 段 全 局 
唯一 的 共享 内 存 。size 参 数 指定 共享 内 存 的 大 小 ， 单 位 是 字 闻 。 如 果 是 
创建 新 的 共享 内 存 ， 则 size 值 必须 被 指定 。 如 有 果 有 是 获取 已 经 存在 的 共享 
内 存 ， 则 可 以 把 size 设 置 为 0。 


shmflg 参 数 的 使 用 和 含义 与 semget 系 统 调 用 的 sem_flags 参 数 相同 。 
不 过 shmget 支 持 两 个 额外 的 标志 
SHM_NORESERVE。 它 们 的 含义 如 下 : 


SHM HUGETLB 和 


口 SHM_HUGETLB ， 类 似 于 mmap 的 MAP_HUGETLB 标 志 ， 系 统 
将 使 用 “大 页 面 * 来 为 共享 内 存 分 配 空间 。 


口 SHM_NORESERVE， 类 似 于 mmap 的 MAP_NORESERVE 标 志 ， 
不 为 共享 内 存 保留 交换 分 区 (swap 空 间 ) 。 这 样 ， 当 物理 内 存 不 足 的 
时 候 ， 对 该 共享 内 存 执行 写 操 作 将 触发 SIGSEGV 信 和 号。 


shmget 成 功 时 返回 一 个 正 整数 值 ， 它 是 共享 内 存 的 标识 人 符 。shmget 
失败 时 返回 -1， 并 设置 errno。 


如 果 shmget 用 于 创建 共享 内 存 ， 则 这 上段 共享 内 存 的 所 有 字 蔬 都 被 
初始 化 为 0， 与 之 关联 的 内 核 数 据 结构 shmid_ds 将 被 创建 并 初始 化 。 
shmid_ds 结 构 体 的 定义 如 下 : 


struct shmid_ds 

{ 

struct ipc_perm shm_perm;/* 共 享 内存 的 操作 权限 */ 

size_t shm_segsz;/* 共 享 内 存 大 小 ， 单 位 是 字 节 */ 

_ time t shm_atime;/* 对 这 段 内 存 最 一 次 调用 shmat 的 时 间 */ 
_ time_t shm_dtime;/* 对 这 上 段 内 存 最 后 一 次 调用 shmdt 的 时 间 */ 
_ time_t shm_ctime;/* 对 这 上 段 内 存 最 后 一 次 调用 shmct1 的 时 间 */ 

_ pid _t shm_cpid;/* 创 建 者 的 PID*/ 

_ pid t shm_lpid;/* 最 后 一 次 执行 shmat 或 shmdt 操 作 的 进程 的 PID*/ 
shmatt_t shm_nattach;/* 日 前 关联 到 此 共享 内 存 的 进程 数量 */ 
/* 省 略 一 些 填充 字段 */ 

】 


妃 出 二 出 洱 


HT ofl 部 志 


shmget 对 shmid_ds 结 构 体 的 初始 化 包括 : 


口 将 shm_perm.cuid 和 shm_perm.uid 设 置 为 调用 进程 的 有 效用 户 
ID 


口 将 shm_perm.cgid 和 shm_perm.gid 设 置 为 调用 进程 的 有 效 组 ID。 
口 将 shm_perm.mode 的 最 低 9 位 设置 为 shmflg 参 数 的 最 低 9 位 。 
口 将 shm_segsz 设 置 为 size 。 
口 将 shm_lpid、shm_nattach、shm_atime、shm_dtime 设 置 为 0。 
口 将 shm_ctime 设 置 为 当前 的 上 时间。 

13.6.2 ”shmat 和 shmdt 系 统 调用 
共享 内 存 被 创建 /获取 之 后 ， 我 们 不 能 立即 访问 它 ， 而 是 需要 先 将 


它 关 联 到 进程 的 地 址 空间 中 。 使 用 完 共享 内 存 之 后 ， 我 们 也 需要 将 它 
从 进程 地 址 空间 中 分 离 。 这 两 项 任务 分 别 由 如 下 两 个 系统 调用 实现 : 


#include<sys/shm.h> 
void*shmat(int shm_id,const void*shm addr,int shmflg); 
int shmdt(const void*shm _addr); 


其 中 ，shm id 参 数 是 由 shmget 调 用 返回 的 共享 内 存 标识 符 。 
shm_addr 参 数 指定 将 共享 内 存 关 联 到 进程 的 哪 块 地 址 空间 ， 最 终 的 效 


果 还 受到 shmflg 参 数 的 可 选 标 志 SHM_RND 的 影响 : 


口 如 果 shm_addr 为 NULL， 则 被 天 联 的 地 址 由 操作 系统 选择 。 这 是 
推荐 的 做 法 ， 以 确保 代码 的 可 移植 性 。 


口 如 果 shm_addr 非 空 ， 并 且 SHM_RND 标 志 未 被 设置 ， 则 共享 内 存 
被 天 联 到 addr 指 定 的 地 址 处 。 


口 如 果 shm_addr 非 空 ， 并 且 设 置 了 SHM_RND 标 志 ， 则 被 关联 的 地 
址 是 [shm_addr-(shm_addr%SHMLBA)]。SHMLBA 的 含义 是 “ 段 低 端 边 
界 地 址 倍数 ”(Segment Low Boundary Address Multiple) ， 它 必须 是 内 
存 页 面 大 小 (PAGE_SIZE) 的 整数 倍 。 现 在 的 Linux 内 核 中 ， 它 等 于 一 
个 内 存 页 大 小 。SHM_RND 的 含义 是 圆 整 (round) ， 即 将 共享 内 存 被 
关联 的 地 址 向 下 圆 整 到 离 shm_addr 最 近 的 SHMLBA 的 整数 倍 地 址 处 。 


除了 SHM_RND 标 志 外 ，shmflg 参 数 还 文 持 如 下 标志 : 


口 SHM_RDONLY。 进 程 仅 能 读 取 共 享 内 存 中 的 内 容 。 若 没有 指定 
该 标志 ， 则 进程 可 同时 对 共享 内 存 进行 读 写 操作 〈 当 然 ， 这 需要 在 创 
建 共享 内 存 的 时 候 指 定 其 读 写 权限 ) 


口 SHM_REMAP。 如 果 地 址 shmaddr 已 经 被 关联 到 一 段 共享 内 存 
上 ， 则 重新 关联 。 


口 SHM_EXEC。 它 指定 对 共享 内 存 段 的 执行 权限 。 对 共享 内 存 而 
言 ， 执 行 权限 实际 上 和 读 权 限 是 一 样 的 。 


Il 


shmat 成 功 时 返回 共享 内 存 被 关联 到 的 地 址 ， 失 败 则 返回 (void*)-1 
并 设置 errno。shmat 成 功 时 ， 将 修改 内 核 数 据 结构 shmid_ds 的 部 分 字 
段 ， 如 下 : 


口 将 shm_nattach 加 1。 
口 将 shm_lpid 设 置 为 调用 进程 的 PID。 
口 将 shm_atime 设 置 为 当前 的 时 间 。 


shmdt 函 数 将 关联 到 shm_addr 处 的 共享 内 存 从 进程 中 分 离 。 它 成 功 
时 返回 0， 失 败 则 返回 -1 并 设置 errno。shmdt 在 成 功 调用 时 将 修改 内 核 
数据 结构 shmid_ds 的 部 分 字段 ， 如 下 : 


口 将 shm_nattach 减 1 。 
口 将 shm_lpid 设 置 为 调用 进程 的 PID 。 


口 将 shm_dtime 设 置 为 当前 的 时 间 。 


13.6.3 ”shmctl 系 统 调用 


shmctl 系 统 调用 控制 共享 内 存 的 某 些 属性 。 其 定义 如 下 ， 


#include<sys/shm.h> 
int shmctl(int shm_id,int command,struct shmid_ds*buf); 


其 中 ，shm_id 参 数 是 J 反 回 的 共享 内 存 标识 符 。 
command 参 数 指定 要 执行 的 命令 。shmctl 支 持 的 所 有 命令 如 表 13-3 所 


修 ° 


表 13-3 shmctl 支持 的 命令 


命 令 含义 shmctl 成 功 时 的 返回 值 
IPC_STAT 将 共享 内 存 相关 的 内 核 数据 结构 复制 到 buf (第 3 个 参数 ， 下 同 ) 中 | 0 
IPC SET 2 buf 中 的 部 分 成 员 复制 到 共享 内 存 相关 的 内 核 数 据 结 构 中 ， 同 时 


核 数 据 中 的 shmid_ds.shm_ctime 被 更 新 

共享 内 存 打 上 删除 的 标记 。 这 样 当 最 后 一 个 使 用 它 的 进程 调用 

IPC RMID me Ni 0 
3 shmdt 将 它 从 进程 中 分 离 时 ， 该 共享 内 存 就 被 删除 了 


获取 系统 共享 内 存 资 源 配置 信息 ， 将 结果 存储 在 buf 中。 应 用 程序 | 内 核 共 享 内 存 信 息 数 


IPC_INFO 需要 将 buf 转换 成 shminfo 结构 体 类 型 来 读 取 这 些 系统 信息 。shminfo | 组 中 已 经 被 使 用 的 项 的 
结构 体 与 seminfo 类 似 ， 这 里 不 再 袭 述 最 大 索引 值 
与 IPC_INFO 类 似 ， 不 过 返回 的 是 已 经 分 配 的 共享 内 存 占 用 的 资源 
SHM INFO 信息 。 应 用 程序 需要 将 buf 转换 成 shm_info 结构 体 类 型 来 读 取 这 些 信 | 同 IPC_INFO 


息 。shn_info 结构 体 与 shminfo 类 似 ， 这 里 不 再 闭 述 
与 IPC_STAT 类 似 ， 不 过 此 时 shm_id 参数 不 是 用 来 表示 共享 内 存 标 | 内 核 共享 内 存 信息 数 


SHM_STAT 识 符 ， 而 是 内 核 中 共享 内 存 信息 数组 的 索引 每 个 共享 内 存 的 信息 都 | 组 中 索引 值 为 shm id 的 
是 该 数组 中 的 一 项 ) 共享 内 存 的 标识 符 

SHM LOCK 禁止 共享 内 存 被 移动 至 交换 分 区 0 

SHM_UNLOCK | 允许 共享 内 存 被 移动 至 交换 分 区 0 


shmctl 成 功 时 的 返回 值 取决 于 command 参 数 ， 如 表 13-3 所 示 。 
shmct 失 败 时 返回 -1， 并 设置 errno 。 


13.6.4 ”共享 内 存 的 POSIX 方 法 


6.5 节 中 我 们 介绍 过 mmap 芳 数 。 利 用 它 的 MAP_ANONYMOUS 标 
志 我 们 可 以 实现 父 、 子 进程 之 间 的 匿名 内 存 共享 。 通 过 打开 同一 个 文 


件 ，mmap 也 可 以 实现 无 关 进 程 之 间 的 内 存 共享 。Linux 提 供 了 另外 一 
种 利用 mmap 在 无 关 进 程 之 间 共 享 内 存 的 方式 。 这 种 方式 无 须 任 何 文件 
的 支持 ， 但 它 需 要 和 驳 使 用 如 下 画 数 来 创建 或 打开 一 个 POSIX 共 享 内 存 
对 象 : 


#include<sys/mman.h> 

#include<sys/stat.h> 

#include<fcntl.h> 

int shm open(const char*name,int oflag,mode _t mode); 


shm_open 的 使 用 方法 与 open 系 统 调 用 完全 相同 。 


name 参 数 指定 要 创建 /打开 的 共享 内 存 对 象 。 从 可 移植 性 的 角度 考 
虎 ， 该 参数 应 该 使 用 “/somename” 的 格式 以 “开始 ， 后 接 多 个 字符 ， 
且 这 些 字符 都 不 是 %/*， 以 “NN0” 结 尾 ， 长 度 不 超过 NAME_MAX (通常 
55) o 


站 


oflag 参 数 指定 创建 方式 。 它 可 以 是 下 列 标志 中 的 一 个 或 者 多 个 的 
按 位 或 : 


口 O_RDONLY。 以 只 读 方 式 打 开 共 享 内 存 对 象 。 
DO_RDWR。 以 可 读 、 可 写 方 式 打开 共享 内 存 对 象 。 


口 O_CREAT。 如 果 共 享 内 存 对 象 不 存在 ， 则 创建 之 。 此 时 mode 参 
数 的 最 低 9 位 将 指定 该 共享 内 存 对 象 的 访问 权限 。 共 享 内 存 对 象 被 创建 


的 时 候 ， 其 初始 长 度 为 0。 


口 O_EXCL。 和 O_CREAT 一 起 使 用 ， 如 果 由 name 指 定 的 共享 内 存 
对 象 已 经 存在 ， 则 shm_open 调 用 返回 错误 ， 否 则 就 创建 一 个 新 的 共享 
内 存 对 象 。 


口 0_TRUNC。 如 果 共 至 内 存 对 象 已 经 存在 ， 则 把 它 截 断 ， 使 其 长 
度 为 0。 


shm_open 调 用 成 功 时 返回 一 个 文件 摘 述 符 。 该 文件 朱 述 符 可 用 于 
后 续 的 mmap 调 用 ， 从 而 将 共享 内 存 关 联 到 调用 进程 。shm_open 和 失败 时 
返回 -1， 并 设置 errno。 


和 打开 的 文件 最 后 需要 关闭 一 样 ， 由 shm_open 创 建 的 共享 内 存 对 
象 使 用 完 之 后 也 需要 被 删除 。 这 个 过 程 是 通过 如 下 函数 实现 的 ; 


#include<sys/mman.h> 
#include<sys/stat.h> 
#include<fcntl.h> 

int shm unlink(const char*name); 


该 画 数 将 name 参 数 指定 的 共享 内 存 对 象 标记 为 等 竺 删除 。 当 所 有 
使 用 该 共 0 它 从 进程 中 分 离 之 后 ， 系 
统 将 销毁 这 个 共享 内 存 对 象 所 占据 的 资源 。 


如 有 果 代码 中 使 用 了 上述 POSIX 共 享 内 存 函 数 ， 则 编译 的 时 候 需要 


指定 链接 选项 -lrt 。 


13.6.5 “共享 内 存 实例 


在 9.6.2 小 节 中 ， 我 们 介绍 过 一 个 聊天 室 服务 器 程序 。 下 面 我 们 将 
它 修 改 为 一 个 多 进程 服务 器 : 一 个 子 进程 处 理 一 个 客户 连接 。 同 时 ， 
我 们 将 所 有 客户 socket 连 接 的 读 缓冲 设计 为 一 块 共 享 内 存 ， 如 代码 清单 
13-4 所 示 。 


代码 清单 13-4 ”使 用 共 译 内 存 的 聊天 室 服 务 器 程序 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include< stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcnt1l.h> 
#include<stdlib.h> 
#include<sys/epoll.h> 
#include<signal.h> 
#include<sys/wait.h> 
#include<sys/mman.h> 
#include<sys/stat.h> 
#include<fcnt1l.h> 
#define USER_ LIMIT 5 
#define BUFFER_SIZE 1024 
#define FD_LIMIT 65535 
#define MAX_EVENT_NUMBER 1024 
#define PROCESS LIMIT 65536 
/* 处 理 一 个 客户 连接 必要 的 数据 */ 
struct client_ data 


{ 


sockaddr_in address;/* 客 户 端 的 Socket 地 址 */ 
int connfd;/*socket 文 件 描述 符 */ 

pid_t pid;/* 处 理 这 个 连接 的 子 进 程 的 PID*/ 

int pipefd[2];/* 和 父 进程 通信 用 的 管道 */ 


于 


static const char*shm_name=" /my_shm'" ， 

int sig_pipefd[2]; 

int epollfd; 

int listenfd; 

int shmfd; 

char*share_mem=0; 
; /* 客 户 连 接 数 组 。 进 程 用 客户 连接 的 编号 来 索引 这 个 数组 ， 即 可 取得 相关 的 客户 连接 数 
局 */ 
client_ data*users=0; 
/* 子 进程 和 客户 连接 的 映射 关系 表 。 用 进程 的 PID 来 索引 这 个 数组 ， 即 可 取得 该 进程 所 处 
理 的 客户 连接 的 编号 */ 

int*sub_process=0; 

/* 当 前 客户 数量 */ 

int user_count=0; 

bool stop_child=false; 

int setnonblocking(int fd) 

{ 

int old_option=fcntl1(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 

fcntl(fd,F_SETFL,new_option); 

return old_option; 


} 

void addfd(int epollfd,int fd) 

{ 

epoll_ event event,; 

event.data.fd=fd; 

event .eventS=EPOLLIN |EPOLLET ， 

epoll ctl(epollfd,EPOLL CTL_ADD, fd, Sevent); 
setnonblocking(fd); 

} 


void sig_handler(int sig) 

{ 

int save_errno=errno; 

int msg=sig; 

send(sig pipefd[1], (char*)&msg,1,0); 
errno=save_errno; 


void addsig(int sig,void(*handler)(int),bool restart=true) 
{ 

struct sigaction sa; 

memset(&sa,'\0',sizeof(sa)); 

sa.sa_handler=handler; 

if(restart) 


sa.sa_flags|=SA_RESTART; 


sigfillset(&sa.sa mask); 
assert(sigaction(sig,&sa,NULL)!=-1); 


void del_resource() 

{ 

close(sig pipefd[0]); 
close(sig pipefd[1]); 
close(listenfd); 
close(epollfd); 
shm_unlink(shm_nanme); 
delete[ Jusers; 
delete[]sub_process; 


} 
/* 停 止 一 个 子 进程 */ 
void child_term_handler(int sig) 


{ 
stop_child=true; 


} 

/* 子 进程 运行 的 函数 。 参 数 1dx 指 出 该 子 进程 处 理 的 客户 连接 的 编号 ，users 征 保存 所 有 
客户 连接 数据 的 数组 ， 参 数 share_mem 指 出 共享 内 存 的 起 始 地 址 */ 

int run_child(int idx,client_ data*users,char*share_mem) 

{ 

epol]1_event events[MAX_EVENT_NUMBER]; 

/* 子 进程 使 用 I/0 复 用 技术 来 同时 监听 两 个 文件 描述 符 ， 客 户 连 接 socket、 与 父 进 程 通 
信 的 管道 文件 描述 符 */ 

int child epollfd=epoll create(5); 

assert(child_epollfd!=-1); 

int connfd=users[idx].connfd; 

addfd(child_epolilfd, connfd); 

int pipefd=users[idx].pipefd[1]; 

addfd(child_epolilfd, pipefd); 

int ret; 

/* 子 进程 需要 设置 自己 的 信号 处 理 画 数 */ 

addsig(SIGTERM,child_term handler, false); 

while(!stop_child) 

{ 

int number=epoll wait(child_epollfd,events,MAX_EVENT_NUMBER, -1); 

if((number <0)&&(errno!=EINTR)) 


printf("epoll] failure\n"); 
break; 


} 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 


/* 本 子 进程 负责 的 客户 连接 有 数据 到 达 */ 

if((sockfd==connfd)&&(events[i].events&EPOLLIN)) 

{ 

memset (share mem+idx*BUFFER_SIZE, '\0',BUFFER_ SIZE); 

/将 客户 数据 读 取 到 对 应 的 读 缓存 中 。 该 读 缓存 是 共享 内 存 的 一 段 ， 它 开始 了 
idx*BUFFER_SIZE 处 ， 长 度 为 BUFFER_SIZE 字 节 。 因 此 ， 各 个 客户 连接 的 读 缓 存 是 共享 的 
A 

ret=recv(connfd, share_ mem+idx*BUFFER_SIZE,BUFFER_SIZE-1,0); 

if(ret<0) 


if(errno!=EAGAIN) 


stop_child=true; 
} 


} 
else if(ret==0) 


stop_child=true; 


} 


else 


{ 

/* 成 功 读 取 客 户 数据 后 就 通知 主 进 程 (通过 管道 ) 来 处 理 */ 
send(pipefd, (char*)&idx,sizeof(idx),0); 

} 


} 

/* 主 进程 通知 本 进程 (通过 管道 ) 将 第 client 个 客户 的 数据 发 送 到 本 进程 负责 的 客户 端 
*/ 

else if((sockfd==pipefd)&&(events[i].events&EPOLLIN)) 

{ 

int client=0; 

/* 接 收 主 进程 发 送 来 的 数据 ， 即 有 客户 数据 到 达 的 连接 的 编号 */ 

ret=recv(sockfd, (char*)&client,sizeof(client),0); 

if(ret<0) 

{ 

if(errno!=EAGAIN) 


stop_child=true; 
} 


} 
else if(ret==0) 


stop_child=true; 


} 


else 


send(connfd, share_ mem+client*BUFFER_SIZE, 
BUFFER_SIZE, 0); 


} 


} 


else 


{ . 
continue; 
} 

} 

} 


close(connfd); 
close(pipefd); 
close(child_epollifd); 
return 0; 


} 


int main(int argc,char*argv[|]) 
if(argc<==2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 


const char*ip=argv[1]; 

int port=atoi(argv[2]); 

int ret=0; 

struct sockaddr_in address; 
bzero(&address, sizeof(address)); 
address.sin family=AF_INET; 
inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 
listenfd=socket(PF_INET,SOCK_STREANM, 0); 
assert(listenfd>=0); 

ret=bind(listenfd, (struct sockaddr*)&address,sizeof(address)); 
assert(ret!=-1); 

ret=]listen(listenfd,5); 

assert(ret!=-1); 

user_count=0; 

users=new client_data[lUSER LIMIT+1]; 
sub_process=new int[PROCESS_LIMIT]; 
for(int i=0;i<PROCESS LIMIT;++i) 

{ 

sub_process[i]=-1; 

} 

epol]1_event events[MAX_EVENT_NUMBER]; 
epollfd=epoll create(5); 
assert(epollfd!=-1); 
addfd(epollfd,1istenfd); 
ret=socketpair(PF_UNIX,SOCK_STREAM,0O, sig_pipefd); 
assert(ret!=-1); 

setnonblocking(sig_ pipefd[1]); 
addfd(epollfd, sig_pipefd[0]); 


addsig(SIGCHLD,Sig_handJler ); 
addsig(SIGTERM, sig_handler ); 
addsig(SIGINT, sig_handler); 
addsig(SIGPIPE, SIG_IGN); 
bool stop_server=false; 
bool terminate=false; 
/* 创 建 共 享 内 存 ， 作 为 所 有 客户 socket 连 接 的 读 缓存 */ 
shmfd=shm_open(shm _ name,O_CREAT|O_RDWR, 0666); 
assert(shmfd!=-1); 
ret=ftruncate(shmfd,USER_ LIMIT*BUFFER_SIZE); 
assert(ret!=-1); 
share_mem= 
(char* )mmap(NULL, USER_LIMIT*BUFFER_SIZE, PROT_READ|PROT_WRITE, MAP_SHA 
RED, shmfd, 0 ) ， 
assert(share mem!=MAP_FAILED); 
close(shmfd); 
while(!stop_server) 
{ 
int number=epoll wait(epollfd,events,MAX EVENT_NUMBER, -1); 
if((number<0)S&&(errnol=EINTR) ) 


printf("epoll] failure\n"); 
break; 

} 

for(int i=0;i<number;i++) 

{ 

int sockfd=events[i].data.fd; 
/* 新 的 客户 连接 到 来 */ 
if(sockfd==]istenfd) 


struct sockaddr_in client_ address; 

socklen_t client_addrlength=sizeof(client_address); 
int connfd=accept(listenfd, (struct sockaddr*) 
Kclient address,&client addrlength); 

if(connfd<0) 

{ 

printf("errno is:%d\n",errno); 

continue; 


} 
if(user_count>=USER_LIMIT) 


const char*info="too many users\n"; 
printf("%s",info); 
send(connfd, info, strlen(info),o0); 
close(connfd); 

continue; 

} 

/* 保 存 第 user_count 个 客户 连接 的 相关 数据 */ 


A 


users[user_count].address=client_address; 
users[user_count].connfd=connfd; 

/* 在 主 进 程 和 子 进程 间 建 立 管道 ， 以 传递 必要 的 数据 */ 
ret=socketpair(PF_UNIX,SOCK_STREAM,O,users[user_count].pipefd); 
assert(ret!=-1); 

pid_t pid=fork(); 

if(pid<0) 


close(connfd); 
continue; 


} 
else if(pid==0) 


{ 

close(epollfd); 

close(listenfd); 
close(users[user_count].pipefd[0]); 

close(sig_ pipefd[0]); 

close(sig pipefd[1]); 
run_child(user_count, users, Share_mem) ， 

munmap( (void*)share_mem,USER_ LIMIT*BUFFER_SIZE); 
exit(0); 

} 


else 


close(connfd); 
close(users[user_count].pipefd[1]); 
addfd(epollfd,users[user_count].pipefd[0]); 
users[user_count] .pid=pid; 


/* 记 采 新 的 客户 连接 在 数组 users 中 的 索引 值 ， 建 立 进 程 pid 和 该 索引 值 之 间 的 映射 关系 


tt 


sub_process[pid]=user_count; 
user_count++; 


} 


} 

/* 处 理 信 号 事件 */ 

else if((sockfd==sig pipefd[0])&&%(events[i].events&EPOLLIN)) 
{ 

int sig; 

char signals[1024]; 

ret=recv(sig_ pipefd[90],signals,sizeof(signals),o); 

if(ret==-1) 


continue; 


else if(ret==0) 
{ 


continue; 


} 


else 


{ 


for(int i=0;i<ret;++i) 
{ 


switch(signals[i]) 


{ 
/* 子 进程 退出 ， 表 示 有 某 个 客户 端 关闭 了 连接 */ 
case SIGCHLD: 


{ 

pid_t pid; 

int stat; 

while( (pid=waitpid(-1,&stat,WwNOHANG))>0) 
{ 

/* 用 子 进 程 的 pid 取 得 被 关闭 的 客户 连接 的 编号 * 

int del user=sub_process[pid]; 
sub_process[pid]=-1; 

if((del user<0)||(del user>USER_LIMIT)) 
{ 

continue; 

} 

/* 清 除 第 del_user 个 客户 连接 使 用 的 相关 数据 */ 
epoll_ctl(epollfd,EPOLL CTL_DEL,users[del user].pipefd[0],o); 
close(users[del user].pipefd[0]); 
users[del user]=users[--user_count]; 
sub_process[users[del user].pid]=del_user; 
} 

if(terminate&&user_count==0) 

{ 


stop_server=true; 


} 


break; 

} 

case SIGTERM: 

case SIGINT: 

{ 

/* 结 束 服务 器 程序 */ 

printf("kill all the clild now\n"); 
if(user_count==0) 

{ 

stop_server=true,; 

break; 

} 

for(int i=0;i<user_count;++i) 
{ 

int pid=users[i].pid; 
kill(pid,SIGTERM); 

} 


terminate=true; 


break; 


} 


default: 


{ 


break; 


x 上 甘 
wi 


个 子 进程 向 父 进 程 写 入 了 数据 */ 


else if(events[i].events&EPOLLIN) 


{ 


Int child=0; 


/* 读 取 管道 


数 纪 


口 ， 


Child 变 二 


记录 了 是 哪个 客户 连接 有 数据 到 


达 */ 


ret=recv(sockfd, (char*)&child,sizeof(child),90); 
printf("read data from child accross pipe\n"); 
if(ret==-1) 


{ 


continue; 


else if(ret==0) 


{ 


continue; 


} 


else 


{ 
/* 向 除 负责 处 理 第 child 个 客户 连接 的 子 进 程 之 外 的 其 他 子 进 


1 


数 纪 


百 


要 写 */ 


for(int j=0;j<user_count;++]j) 


if(users[j].pipefd[0]!=sockfd) 
{ 


printf("send data to child accross pipe\n"); 
send(users[j].pipefd[0], (char*)&child, 
sizeof(child),o0); 


OO 


del_resource(); 


return 9; 


} 


» 肖 


程 发 送 消 ， 


DO 


填 


知 它们 有 


上 面 的 代码 有 两 点 需要 注意 : 


口 虽然 我 们 使 用 了 共 译 内 存 ， 但 每 个 子 进程 都 只 会 往 上 自己 所 处 理 
的 客户 连接 所 对 应 的 那 一 部 分 读 缓 存 中 写 入 数据 ， 所 以 我 们 使 用 共享 
内 存 的 目的 只 是 为 了 “共享 读 ”。 因 此 ， 每 个 子 进程 在 使 用 共享 内 存 的 
时 候 都 无 须 加 锁 。 这 样 做 符合 “聊天 室 服务 器 ”的 应 用 场景 ， 同 时 提高 
了 程序 性 能 。 


口 我 们 的 服务 器 程序 在 启动 的 时 候 给 数组 users 分 配 了 足够 多 的 空 
间 ， 使 得 它 可 以 存储 所 有 可 能 的 客户 连接 的 相关 数据 。 同 样 ， 我 们 一 
次 性 给 数组 sub_process 分 配 的 空间 也 足以 存储 所 有 可 能 的 于 进程 的 相 
天 数据 。 这 是 牺牲 空 间 换取 时 间 的 又 一 例子 。 


13.7 消 因 队列 


消息 队列 是 在 两 个 进程 之 间 传 递 二 进 制 块 数据 的 一 种 简单 有 效 的 
方式 。 每 个 数据 块 都 有 一 个 特定 的 类 型 ， 接 收 方 可 以 根据 类 型 来 有 选 
择 地 接收 数据 ， 而 不 一 定 像 管道 和 命名 管道 那样 必须 以 先进 先 出 的 方 
式 接 收 数据 。 


Linux 消 息 队 列 的 API 都 定义 在 sysmmsg.h 头 文件 中 ， 包 括 4 个 系统 调 
用 : msgget、msgsnd、msgrcv 和 msgctl。 我 们 将 依次 讨论 之 。 
13.7.1 msgget 系 统 调用 

msgget 系 统 调用 创建 一 个 消息 队列 ， 或 者 获取 一 个 已 有 的 消息 队 
列 。 其 定义 如 下 : 


#include<sys/msg.h> 
int msgget(key_t key,int msgfl1g); 


和 semget 系 统 调用 一 样 ，key 参 数 是 一 个 键 值 ， 用 来 标识 一 个 全 局 
唯一 的 消 居 队 列 。 


msgflg 参 数 的 使 用 和 含义 与 smget 系 统 调 用 的 sem_flags 参 数 相同 。 


msgget 成 功 时 返回 一 个 正 整 数值 ， 它 是 消息 队列 的 标识 符 。msgget 
失败 时 返回 -1， 并 设置 errno 。 


如 条 msgget 用 于 创建 消 妃 队列 ， 则 与 之 关联 的 内 核 数据 结 构 
msqid_ds 将 被 创建 并 初始 化 。msqid_ds 结 构 体 的 定义 如 下 : 


struct msqid_ds 

{ 

struct ipc_perm msg_perm;/* 消 息 队 列 的 操作 权限 */ 
time_t msg_stime;/* 最 后 一 次 调用 msgsnd 的 时 间 */ 
time_t msg_rtime; /最 后 一 次 调用 msgrcv 的 时 间 */ 
time t msg_ctime;/* 最 后 一 次 被 修改 的 时 间 */ 
unsigned long msg_cbytes;/* 消 息 队 列 中 已 有 的 字 节 数 */ 
msgqnum_t msg_qnum;/* 消 息 队 列 中 已 有 的 消息 数 */ 
msglen_t msg_qbytes;/* 消 息 队 列 允 许 的 最 大 字 节 数 * 

pid_t msg_lspid;/* 最 后 执行 hsgsnd 的 进程 的 PID* -| 

pid_t msg_lrpid;/* 最 后 执行 msgrcv 的 进程 的 PID*/ 

}; 


13.7.2 msgsnd 系 统 调用 


msgsnd 系 统 调 用 把 一 条 消 忆 添 加 到 消 因 队列 中 。 其 定义 如 下 : 


#include<sys/msg.h> 
int msgsnd(int msqid,const void*msg_ptr,size _t msg_sz,int 
msgflg); 


msqid 参 数 是 由 msgget 调 用 返回 的 消 妃 队列 标识 符 。 


msg_ptr 参 数 指 问 一 个 准备 发 送 的 消息 ， 消 妃 必 须 被 定义 为 如 下 类 


型 . 


(一 


struct msgbuf 


{ 
long mtype;/* 消 息 类 型 */ 
char mtext[512];/* 消 息 数 据 */ 


了 


其 中 ，mtype 成 员 指定 消 轧 的 类 型 ， 它 必须 是 一 个 正 整 数 。mtext 坪 
消息 数据 。msg_sz 参 数 是 消息 的 数据 部 分 (mtext) 的 长 度 。 这 个 长 度 
可 以 为 0， 表 示 没 有 请 县 数据 。 


msgflg 参 数控 制 msgsnd 的 行为 。 它 通常 仅 文 持 IPC_NOWAIT 标 志 ， 
即 以 非 阻塞 的 方式 发 送 消 息 。 默 认 情 况 下 ， 发 送 消 息 时 如 果 消 息 队 列 
满 了 ， 则 msgsnd 将 阻塞 。 若 IPC_NOWAIT 标 志 被 指定 ， 则 msgsnd 将 立 
即 返回 并 设置 errmmo 为 EAGAIN 。 


处 于 阻塞 状态 的 msgsnd 调 用 可 能 被 如 下 两 种 异 单 情况 所 中 断 : 


口 消息 队列 被 移 除 。 此 时 msgsnd 调 用 将 立即 返回 并 设置 errno 为 
EIDRM ° 


口 程序 接收 到 信号 。 此 时 msgsnd 调 用 将 立即 返回 并 设置 errno 为 
EINTR 。 


msgsnd 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。msgsnd 成 功 时 将 
修改 内 核 数 据 结构 msqid_ds 的 部 分 字段 ， 如 下 所 示 : 


口 将 msg_qnum 加 1。 


口 将 msg_lspid 设 置 为 调用 进程 的 PID 。 


口 将 msg_stime 设 置 为 当前 的 时 间 。 


13.7.3 msgrcv 系 统 调用 


msgrcv 系 统 调用 从 请 恩 队 列 中 获取 消 思 。 其 定义 如 下 : 


#include<sys/msg:h> 
int msgrcv(int msqid,void*msg_ptr,size _t msg_sz,1long int 
msgtype, int msgf1g); 


msdqid 参 数 是 由 msgget 调 用 返回 的 消 轧 队列 标识 符 。 


msg_ptr 参 数 用 于 存储 接收 的 消 恩 ，msg_sz 参 数 指 的 是 消 忆 数据 部 
分 亲疏 展 ， 


msgtype 参 数 指定 接收 何 种 类 型 的 请 轧 。 我 们 可 以 使 用 如 下 几 种 方 
式 来 指定 消息 类 型 : 


Dmsgtype 等 于 0。 读 取消 恩 队 列 中 的 第 一 个 消 已 。 


Dmsgtype 大 于 0。 读 取消 居 队 列 中 第 一 个 类 型 为 msgtype 的 消息 
(除非 指定 了 标志 MSG_EXCEPT， 见 后 文 ) 。 


Dmsgtype 小 于 0。 读 取消 息 队 列 中 第 一 个 类 型 值 比 msgtype 的 绝对 
值 小 的 消 轧 。 


参数 msgflg 控 制 msgrev 画 数 的 行为 。 它 可 以 是 如 下 一 些 标志 的 按 位 
或 : 


DIPC_NOWAIT。 如 果 消 息 队 列 中 没有 消息 ， 则 msgrcv 调 用 立即 返 
回 并 设置 errno 为 ENOMSG 。 


口 MSG_EXCEPT。 如 果 msgtype 大 于 0， 则 接收 消息 队列 中 第 一 个 
非 msgtype 类 型 的 消 上 县 。 


口 MSG_NOERROR。 如 果 消 息 数 据 部 分 的 长 度 超 过 了 msg_sz， 就 


处 于 阻塞 状态 的 msgrcv 调 用 还 可 能 被 如 下 两 种 异 单 情况 所 中 断 : 


口 消息 队列 被 移 除 。 此 时 msgrcv 调 用 将 立即 返回 并 设置 errno 为 
EIDRM 。 


口 程序 接收 到 信号 。 此 时 msgrcv 调 用 将 立即 返回 并 设置 errno 为 
EINTR 。 


msgrcv 成 功 时 返回 9， 失 败 则 返回 -1 并 设置 errno。msgrcv 成 功 时 将 
修改 内 核 数 据 结 构 msqid_ds 的 部 分 字段 ， 如 下 所 示 : 


口 将 msg_gnum 减 1 。 


口 将 msg_lrpid 设 置 为 调用 进程 的 PID。 


口 将 msg_rtime 设 置 为 当前 的 时 间 。 


13.7.4 ”msgctl 系 统 调用 


msgctl 系 统 调用 控制 消息 队列 的 某 些 属性 。 其 定义 如 下 : 


#include<sys/msg.h> 
int msgctl(int msqid,int command,struct msqid_ds*buf); 


由 msgget 调 用 返回 的 共享 内 存 标识 符 。command 参 数 
指定 要 执行 的 命令 。msgct 文 持 的 所 有 命令 如 表 13-4 所 示 。 


表 13-4 msgctl 支持 的 命令 


IPC STAT 


- buf 的 部 4 和 复制 到 消息 队列 关联 的 内 核 数 据 结构 中 ， 同 时 


IPEC: SET i 
一 内 核 数据 中 的 msqid_ds.msg_ctime 被 更 新 


立即 移 除 消 息 队 列 ， 唤 醒 所 有 等 待 读 消 息 和 写 消息 的 进程 《这 些 调 
用 立即 返回 并 设置 errno 为 EIDRM) 
大 取 系统 消息 队列 资源 配置 信息 ， 将 结果 存储 在 buf 中 。 应 用 程序 
IPC INFO “| 需要 将 buf 转换 成 msginfo 结构 体 类 型 来 读 取 这 些 系统 信息 。msginfo 
结构 体 与 seminfo 类 似 ， 这 里 不 再 歼 述 
与 IPC_INFO 类 似 ， 不 过 返回 的 是 已 经 分 配 的 消息 队列 占用 的 资源 
信息 
与 IPC_STAT 类 似 ， 不 过 此 时 msqid 参数 不 是 用 来 表示 消息 队列 标 | 内 核 消息 队列 信息 数组 中 
MSG_STAT | 识 符 ， 而 是 内 核 消息 队列 信息 数组 的 索引 每 个 消息 队列 的 信息 都 是 | 索引 值 为 msqid 的 消息 队列 
dt 的 标识 符 


IPC RMID 


内 核 消息 队列 信息 数组 中 已 
经 被 使 用 的 项 的 最 大 索引 值 


MSG _ INFO 同 IPC_INFO 


msgctl 成 功 时 的 返回 值 取 决 于 command 参 数 ， 如 表 13-4 所 示 。 
msgct 函 数 失败 时 返回 -1 并 设置 errno。 


13.8 IPC 命令 


上 述 3 种 System V IPC 进 程 间 通信 方式 都 使 用 一 个 全 局 唯一 的 键 值 
(key) 来 描述 一 个 共享 资源 。 当 程序 调用 semget、shmget 或 者 msgget 
上 时， 就 创建 了 这 些 共享 资源 的 一 个 实例 。Linux 提 供 了 ipcs 命 令 ， 以 观 


察 当 前 系统 上 拥有 哪些 共享 资源 实例 。 


执行 ipcs 命 令 : 


$sudo ipcs 


------ Shared Memory Segments 
key shmid owner perms bytes nattch status 
------ Semaphore Arrays-------- 

key semid owner perms nsems 


0x00000000 196608 apache 
0x00000000 229377 apache 
0x00000000 262146 apache 
0Xx00000000 294915 apache 
0x00000000 327684 apache 
0x00000000 360453 apache 
0x00000000 393222 apache 


人 Message QUeUeS----- 


600 


key msqid owner perms used-bytes messages 


输出 结果 分 段 显示 了 系统 拥有 的 共享 内 存 、 信 和 号 量 
源 。 可 见 ， 该 系统 目前 尚未 使 用 任何 共享 内 存 和 消息 队列 ， 却 分 配 了 
一 组 键 值 为 0 (IPC_PRIVATE) 的 信号 量 。 这 些 人 


apache， 因 此 它们 是 由 httpd 服 务 


妖 程 序 创建 的 


比如 在 测试 机 絮 Kongming20 上 


和 消 恩 队列 资 


言 写 量 的 所 有 者 是 


° 其 中 标识 


符 为 393222 


的 信号 量 正 是 我 们 在 13.5.5 小 节 讨 论 的 那个 用 于 在 httpd 各 个 子 进 程 之 
间 同 步 epoll_wait 使 用 权 的 信号 量 。 


此 外 ， 我 们 可 以 使 用 ipcrm 命 令 来 删除 遗留 在 系统 中 的 共 至 资源 。 


13.9 ”在 进程 间 传 递 文件 接 述 符 


由 于 fork 调 用 之 后 ， 父 进程 中 打开 的 文件 描述 符 在 子 进程 中 仍然 
保持 打开 ， 所 以 文件 描述 符 可 以 很 方便 地 从 父 进 程 传递 到 子 进 程 。 需 
要 注意 的 是 ， 传 递 一 个 文件 摘 述 符 并 不 是 传递 一 个 文件 描述 符 的 值 ， 
而 是 要 在 接收 进程 中 创建 一 个 新 的 文件 拉 述 符 ， 并 且 该 文件 朱 述 符 和 
发 送 进程 中 被 传递 的 文件 摘 述 符 指 癌 内 核 中 相同 的 文件 表 项 。 


那么 如 何 把 子 进 程 中 打开 的 文件 朱 述 符 传 递 给 父 进程 呢 ? 或 者 更 
通俗 地 说 ， 如 何在 两 个 不 相干 的 进程 之 间 传 递 文件 描述 符 呢 ? 在 Linux 
下 ， 我 们 可 以 利用 UNIX 域 socket 在 进程 间 传 递 特殊 的 辅助 数据 ， 以 实 
现 文 件 描述 符 的 传递 站。 代码 清单 13-5 给 出 了 一 个 实例 ， 它 在 子 进程 
中 打开 一 个 文件 摘 述 符 ， 然 后 将 它 传递 给 父 进 程 ， 父 进程 则 通过 读 取 
该 文件 摘 述 符 来 获得 文件 的 内 容 。 


代码 清单 13-5 ”在 进程 间 传 递 文件 搬 述 从 


#include<sys/socket.h> 

#include<fcntl.h> 

#include<stdio.h> 

#include<unistd.h> 

#include<stdlib.h> 

#include<assert.h> 

#include<string.h> 

static const int CONTROL_LEN=CMSG_LEN(sizeof(int)); 

/* 发 送 文 件 描述 符 ，fd 参 数 是 用 来 传递 信息 的 UNIX 域 socket，fd_to_send 参 数 是 竺 
发 送 的 文件 描记 符 * / 


void send_fd(int fd, int fd to_send ) 
{ 

struct iovec iov[1]; 

struct msghdr msg; 

char buf[0]; 

iov[0].iov_base=buf; 
iov[0].iov_len=1; 
msg.msg_name=NULL; 
msg.msg_namelen=0; 

msg.msg_iov=iov; 

msg.msg_iovlen=1; 

cmsghdr cm; 
cm.cmsg_len=CONTROL_LEN; 
cm.cmsg_level=SOL_ SOCKET; 
cm.cmsg_type=SCM_RIGHTS,; 
*(int*)CMSG DATA(&cm)=fd_to_send; 
msg.msg_control=&&cm;/* 设 置 辅助 数据 */ 
msg.msg_controllen=CONTROL_LEN; 
sendmsg(fd, &msg,0); 


} 

/* 接 收 目 标 文件 描述 符 */ 

int recv_fd(int fd) 

{ 

struct iovec iov[1]; 

struct msghdr msg; 

char buf[0]; 
iov[0].iov_base=buf,; 
iov[0].iov_len=1; 
msg.msg_name=NULL; 
msg.msg_namelen=0; 
msg.msg_iov=iov; 
msg.msg_iovlen=1; 

cmsghdr cm; 
msg.msg_control=&cm; 
msg.msg_controllen=CONTROL_LEN; 
recvmsg(fd, &msg,o0); 

int fd to_read=*(int*)CMSG_ DATA(&cm); 
return fd_to_read; 


} 


int main() 


{ 

int pipefd[2]; 

int fd_to_pass=0; 

/* 创 建 父 、 子 进程 间 的 管道 ， 文 件 描 述 符 pipefd[9] 和 pipefd[1] 都 是 UNIX 域 
socket*/ 

int ret=Socketpair(PF_UNIX, SOCK_DGRAM,0,pipefd ) ; 

assert(ret!=-1); 

pid_t pid=fork(); 


assert(pid>=0); 
if(pid==0) 


{ 

close(pipefd[0]); 

fd_to_pass=open("test.txt",O_ RDWR,0666); 

/* 子 进程 通过 管道 将 文件 描述 符 发 送 到 父 进程 。 如 果 文件 test .txt 打 开 失 败 ， 则 子 进 
程 将 标准 输入 文件 描述 符 发 送 到 父 进程 */ 

send_fd(pipefd[1],(fd_to_pass>0)?fd to_pass:0); 

close(fd_to_pass); 

exit(0); 


} 

close(pipefd[1]); 

fd_to_pass=recv_fd(pipefd[90] );/* 父 进程 从 管道 接收 目标 文件 描述 符 */ 
char buf[1024]; 

memset (buf,'\0',1024); 
read(fd_to_pass, buf,1024);/* 读 目标 文件 描述 符 ， 以 验证 其 有 效 性 */ 
printf("I got fd%d and data%s\n",fd_to_pass,buf); 
close(fd_to_pass); 

} 


第 14 章 ”多 线程 编程 


早期 Linux 不 支持 线程 ， 直 到 1996 年 ，Xavier Leroy 等 人 才 开 发 出 
第 一 个 基本 符合 POSIX 标 准 的 线程 库 LinuxThreads。 但 LinuxThreads 戏 
率 低 而 且 问 题 很 多 。 自 内 核 2.6 开 始 ，Linux 才 真正 提供 内 核 级 的 线程 
文 持 ， 并 有 两 个 组 织 致 力 于 编写 新 的 线程 库 : NGPT (Next Generation 
POSIX Threads) 和 NPTL (Native POSIX Thread Library) 。 不 过 前 者 
在 2003 年 就 放弃 了 ， 因 此 新 的 线程 库 就 称 为 NPTL 。NPTL 比 
LinuxThreads 效 率 高 ， 且 更 符合 POSIX 规 范 ， 所 以 它 已 经 成 为 glibc 的 一 
部 分 。 本 书 所 有 线程 相关 的 例 程 使 用 的 线程 库 都 是 NPTL 。 


本 章 要 讨论 的 线程 相关 的 内 容 都 属于 POSIX 线 程 (简称 pthread) 
标准 ， 而 不 局 限于 NPTL 实 现 ， 具 体 包 括 : 


口 创建 线程 和 结束 线程 。 


口 读 取 和 设置 线程 属性 。 


口 POSIX 线 程 同 步 方 式 : POSIX 信 号 量 、 互 斥 锁 和 条 件 变 量 。 


在 本 章 的 最 后 ， 我 们 还 将 介绍 在 Linux 环 境 下 ， 库 函数 、 进 程 、 信 
号 与 多 线程 程序 之 间 的 相互 影响 。 


14.1 Linux 线程 概述 


14.1.1 ”线程 模型 


线程 是 程序 中 完成 一 个 独立 任务 的 完整 执行 序列 ， 即 一 个 可 调度 
的 实体 。 根 据 运行 环境 和 调度 者 的 身份 ， 线 程 可 分 为 内 核 线程 和 用 户 
线程 。 内 核 线 程 ， 在 有 的 系统 上 也 称 为 LWP (Light Weight Process， 
轻 量 级 进程 ，， 运 行 在 内 核 空间 ， 由 内 核 来 调度 ;用户 线程 运行 在 用 
户 空间 ， 由 线程 库 来 调度 。 当 进程 的 一 个 内 核 线程 获得 CPU 的 使 用 权 
时 ， 它 就 加 载 并 运行 一 个 用 户 线程 。 可 见 ， 内 核 线程 相当 于 用 户 线程 
运行 的 “容器 ”。 一 个 进程 可 以 拥有 M 个 内 核 线程 和 N 个 用 户 线程 ， 其 中 
M<N。 并 且 在 一 个 系统 的 所 有 进程 中 ，M 和 N 的 比值 都 是 固定 的 。 按 
照 M:N 的 取 值 ， 线 程 的 实现 方式 可 分 为 三 种 模式 : 完全 在 用 户 空间 实 
现 、 完 全 由 内 核 调度 和 双 层 调度 (two level scheduler) 。 


完全 在 用 户 空 间 实 现 的 线程 无 须 内 核 的 文 持 ， 内 核 甚至 根本 不 知 
道 这 些 线程 的 存在 。 线 程 库 负 责 管理 所 有 执行 线程 ， 比 如 线程 的 优先 
级 、 时 间 片 等 。 线 程 库 利 用 longjmp 来 切换 线程 的 执行 ， 使 它们 看 起 来 
像 古 “并 发 "执行 的 。 但 实际 上 内 核 仍 然 古 把 整个 进程 作为 最 小 单位 来 
调度 的 。 换 人 句 话 说 ， 一 个 进程 的 所 有 执行 线程 共 至 该 进程 的 时 间 厂 ， 
它们 对 外 表现 出 相同 的 优先 级 。 因 此 ， 对 这 种 实现 方式 而 言 ，N=1， 
外 M 个 用 户 空间 线程 对 应 1 个 内 核 线程 ， 而 该 内 核 线程 实际 上 束 是 进程 


本 号 。 完 全 在 用 户 空 间 实现 的 线程 的 优点 是 : 创建 和 调度 线程 都 无 须 
内 核 的 干预 ， 因 此 速度 相当 快 。 并 且 由 于 它 不 占用 额外 的 内 核 痪 源 ， 
所 以 即使 一 个 进程 创建 了 很 多 线程 ， 也 不 会 对 系统 性 能 造成 明显 的 影 
啊 。 其 缺点 是 : 对 于 多 处 理 紫 系统 ， 一 个 进程 的 多 个 线程 无 法 运行 在 
不 同 的 CPU 上 ， 因 为 内 核 是 按照 其 最 小 调度 单位 来 分 配 CPU 的 。 此 
外 ， 线 程 的 优先 级 只 对 同一 个 进程 中 的 线程 有 效 ， 比 较 不 同 进程 中 的 
线程 的 优先 级 没有 意义 。 早 期 的 伯克利 UNIX 线 程 束 是 采用 这 种 方式 实 
现 的 。 


完全 由 内 核 调 度 的 模式 将 创建 、 调 度 线程 的 任务 都 交 给 了 内 核 ， 
运行 在 用 户 空 间 的 线程 库 无 须 执行 管 理 任务 ， 这 与 完全 在 用 户 空 间 实 
现 的 线程 恰恰 相反 。 二 者 的 优 缺点 也 正好 互 换 。 较 早 的 Linux 内 核对 内 
核 线程 的 控制 能 力 有 限 ， 线 程 库 通 常 还 要 提供 额外 的 控制 能 力 ， 尤 其 
征 线程 同步 机 制 ， 不 过 现代 Linux 内 核 已 经 大 大 增强 了 对 线程 的 文 持 。 
完全 由 内 核 调 度 的 这 种 线程 实现 方式 满足 M:N=1:1， 即 1 个 用 户 空 间 线 
程 被 映射 为 1 个 内 核 线程 。 


双 层 调度 模式 是 前 两 种 实现 模式 的 混合 体 : 内 核 调度 M 个 内 核 线 
程 ， 线 程 库 调 度 N 个 用 户 线程 。 这 种 线程 实现 方式 结合 了 前 两 种 方式 
的 优点 : 不 但 不 会 消耗 过 多 的 内 核资 源 ， 而 且 线程 切换 速度 也 较 快 ， 
同时 它 可 以 充分 利用 多 处 理 絮 的 优势 。 


14.1.2 ”Linux 线 程 库 


Linux 上 两 个 最 有 名 的 线程 库 是 LinuxThreads 和 NPTL， 它 们 都 是 采 
用 1:1 的 方式 实现 的 。 由 于 LinuxThreads 在 开发 的 时 候 ，Linux 内 核对 线 
程 的 支持 还 非常 有 限 ， 所 以 其 可 用 性 、 稳 定性 以 及 POSIX 兼 容 性 都 远 
远 不 及 NPTL 。 现 代 Linux 上 默认 使 用 的 线程 库 是 NPTL。 用 户 可 以 使 用 
如 下 命令 来 查看 当前 系统 上 所 使 用 的 线程 库 : 


$getconf GNU_LIBPTHREAD_VERSION 
NPTL 2.14.90 


LinuxThreads 线 程 库 的 内 核 线程 是 用 clone 系 统 调 用 创建 的 进程 模 
拟 的 。clone 系 统 调 用 和 fork 系 统 调用 的 作用 类 似 : 创建 调用 进程 的 子 
进程 。 不 过 我 们 可 以 为 dlone 系 统 调用 指定 CLONE_THREAD 标 志 ， 这 
种 情况 下 它 创 建 的 子 进程 与 调用 进程 共 至 相同 的 虚拟 地 址 空间 、 文 件 
描述 符 和 信和 号 处 理 函 数 ， 这 些 都 是 线程 的 特点 。 不 过 ， 用 进程 来 模拟 
内 核 线程 会 导致 很 多 语义 问题 ， 比 如 : 


口 每 个 线程 拥有 不 同 的 PID ， 因 此 不 符合 POSIX 规 范 。 


口 Linux 信 和 号 处 理 本 来 是 基于 进程 的 ， 但 现在 一 个 进程 内 部 的 所 有 
线程 都 能 而 且 必 须 处 理 信 号 。 


口 用 户 ID、 组 ID 对 一 个 进程 中 的 不 同 线程 来 说 可 能 十 不 一 样 的 。 


口 程序 产生 的 核心 转 储 文件 不 会 包含 所 有 线程 的 信息 ， 而 只 包含 
产生 该 核心 转 储 文件 的 线程 的 信息 。 


口 由 于 每 个 线程 都 是 一 个 进程 ， 因 此 系统 允许 的 最 大 进程 数 也 束 
是 最 大 线程 数 。 


LinuxThreads 线 程 库 一 个 有 名 的 特性 是 所 请 的 管理 线程 。 它 是 进 
程 中 专门 用 于 管理 其 他 工作 线程 的 线程 。 其 作用 包括 : 


口 系统 发 送 给 进程 的 终止 信和 号 先 由 管理 线程 接收 ， 管 理 线程 再 给 
其 他 工作 线程 发 送 同样 的 信号 以 终止 它们 。 


口 当 终止 工作 线程 或 者 工作 线程 主动 退出 时 ， 管 理 线程 必须 等 行 
它们 结束 ， 以 避免 僵 刻 进程 。 


口 如 果 主 线程 完 于 其 他 工作 线程 退出 ， 则 管理 线程 将 阻塞 它 ， 直 
到 所 有 其 他 工作 线程 都 结束 之 后 才 唤醒 它 。 


口 回收 每 个 线程 堆栈 使 用 的 内 存 。 


管理 线程 的 引入 ， 增 加 了 额外 的 系统 开销 。 并 且 由 于 它 只 能 运行 
在 一 个 CPU 上 ， 所 以 LinuxThreads 线 程 库 也 不 能 充分 利用 多 处 理 器 系 
统 的 优势 。 


要 解决 LinuxThreads 线 程 库 的 一 系列 问题 ， 不 仅 需要 改进 线程 
库 ， 最 主要 的 是 需要 内 核 提 供 更 完善 的 线程 文 持 。 因 此 ，Linux 内 核 从 
2.6 版 本 开始 ， 提 供 了 真正 的 内 核 线程 。 新 的 NPTL 线 程 库 也 应 运 而 
生 。 相 比 LinuxThreads，NPTL 的 主要 优势 在 于 : 


口内 核 线程 不 再 是 一 个 进程 ， 因 此 避免 了 很 多 用 进程 模拟 内 核 线 
程 导 致 的 语义 问题 。 


口 振 痉 了 管理 线程 ， 终 止 线程 、 回 收 线程 堆栈 等 工作 都 可 以 由 内 
核 来 完成 。 


口 由 于 不 存在 管理 线程 ， 所 以 一 个 进程 的 线程 可 以 运行 在 不 同 的 
CPU 上 ， 从 而 充分 利用 了 多 处 理 右 系统 的 优势 。 


口 线程 的 同步 由 内 核 来 完成 。 隶 属于 不 同 进程 的 线程 之 间 也 能 共 
享 互 斥 锁 ， 因 此 可 实现 跨 进程 的 线程 同步 。 


14.2 ”创建 线程 和 结束 线程 


下 面 我 们 讨论 创建 和 结束 线程 的 基础 API。Linux 系 统 上 ， 它 们 都 
定义 在 pthread.h 头 文件 中 。 


1.pthread_create 
创建 一 个 线程 的 函数 是 pthread_create。 其 定义 如 下 : 


#include<pthread.h> 
int pthread_create(pthread_t*thread, const 
pthread_attr_t*attr,void*(*start_routine)(void*),void*arg); 
thread 参 数 是 新 线程 的 标识 符 ， 后 续 pthread_* 函 数 通 过 它 来 引用 新 
线程 。 其 类 型 pthread_t 的 定义 如 下 : 


#include<bits/pthreadtypes.h> 
typedef unsigned long int pthread_t; 


可 见 ，pthread_t 是 一 个 整 型 类 型 。 实 际 上 ，Linux 上 几乎 所 有 的 资 
源 标识 符 都 是 一 个 整 型 数 ， 比 如 socket、 各 种 System V IPC 标 识 符 等 。 


attr 人 参数 用 于 设置 新 线程 的 属性 。 给 它 传递 NULL 表 示 使 用 默认 线 
程 属性 。 线 程 拥有 众多 属性 ， 我 们 将 在 后 面 详 细 讨 论 之 。start_routine 
和 arg 参 数 分 别 指定 新 线程 将 运行 的 函数 及 其 参数 。 


pthread_create 成 功 时 返回 0， 失 败 时 返回 错误 码 。 一 个 用 户 可 以 打 
开 的 线程 数量 不 能 超过 RLIMIT_NPROC 软 资源 限制 ( 见 表 7-1) 。 此 
外 ， 系 统 上 所 有 用 户 能 创建 的 线程 总 数 也 不 得 超 
过 /proc/sys/kernel/threads-max 内 核 参数 所 定义 的 值 。 


2.pthread_exit 


线程 一 旦 被 创建 好 ， 内 核 就 可 以 调度 内 核 线程 来 执行 start_routine 
函数 指针 所 指 回 的 函数 了 。 线 程 本 数 在 结束 时 最 好 调用 如 下 函数 ， 以 
确保 安 人 全、 干净 地 退出 : 


#include<pthread.h> 
void pthread exit(void*retval); 


pthread_exit 函 数 通 过 retval 参 数 回 线程 的 回收 者 传递 其 退出 信息 。 
它 执行 完 之 后 不 会 返回 到 调用 者 ， 而 且 永 远 不 会 失败 。 


3.pthread_join 


一 个 进程 中 的 所 有 线程 都 可 以 调用 pthread_join 函 数 来 回收 其 他 线 
程 《前 提 是 目标 线程 是 可 回收 的 ， 见 后 文 ) ， 即 等 待 其 他 线程 结束 ， 
这 类 似 于 回收 进程 的 wait 和 waitpid 系 统 调用 。pthread_join 的 定义 如 下 : 


#include<pthread.h> 
int pthread_join(pthread t thread,void**retval); 


thread 参 数 是 目标 线程 的 标识 符 ，retval 参 数 则 是 目标 线程 返回 的 退 
出 信息 。 该 函数 会 一 直 阳 塞 ， 直 到 被 回收 的 线程 结束 为 止 。 该 函数 成 
功 时 返回 9， 失 败 则 返回 错误 码 。 可 能 的 错误 码 如 表 14-1 所 示 。 


表 14-1 pthread_join 函数 可 能 引发 的 错误 码 
错误 码 描 述 
EDEADLK | 可 能 引起 死 锁 。 比 如 两 个 线程 互相 针对 对 方 调用 pthread join， 或 者 线程 对 自身 调用 pthread join 
EINVAL 目标 线程 是 不 可 回收 的 ， 或 者 已 经 有 其 他 线程 在 回收 该 目标 线程 
ESRCH 目标 线程 不 存在 


4.pthread_cancel 


有 时 候 我 们 希望 异 肖 终止 一 个 线程 ， 即 取消 线程 ， 它 是 通过 如 下 
函数 实现 的 : 


#include<pthread.h> 
int pthread_ cancel(pthread t thread); 


thread 参 数 是 目标 线程 的 标识 符 。 该 函数 成 功 时 返回 0， 失 败 则 返 
回 错误 码 。 不 过 ， 接 收 到 取消 请 求 的 目标 线程 可 以 决定 是 否 允 许 被 取 
消 以 及 如 何 取消 ， 这 分 别 由 如 下 两 个 范 数 完成 : 


#include<pthread.h> 
int pthread_setcancelstate(int state,int*oldstate); 
int pthread_setcanceltype(int type,int*oldtype); 


这 两 个 函数 的 第 一 个 参数 分 别 用 于 设置 线程 的 取消 状态 《是否 多 
许 取 消 ) 和 取消 类 型 (如何 取 消 ) ， 第 二 个 参数 则 分 别 记录 线程 原来 


的 取消 状态 和 取消 类 型 。state 参 数 有 两 个 可 选 值 : 


DPTHREAD_ CANCEL ENABLE， 人 允许 线程 被 取消 。 它 是 线程 被 
创建 时 的 默认 取消 状态 。 


DPTHREAD_CANCEL DISABLE， 禁 止 线程 被 取消 。 这 种 情况 
下 ， 如 果 一 个 线程 收 到 取消 请 求 ， 则 它 会 将 请 求 挂 起 ， 直 到 该 线程 允 
许 被 取消 。 


type 参 数 也 有 两 个 可 选 值 : 


口 PTHREAD_CANCEL_ASYNCHRONOUS， 线 程 随 时 都 可 以 被 取 
消 。 它 将 使 得 接收 到 取消 请 求 的 目标 线程 立即 采取 行动 。 


DPTHREAD_CANCEL_DEFERRED， 人 允许 目标 线程 推迟 行动 ， 直 
到 它 调 用 了 下 面 几 个 所 谓 的 取 请 点 函数 中 的 一 个 : pthread_join、 
pthread_testcancel ~、 pthread_cond_wait 、 pthread_cond_timedwait 、 
sem_wait 和 sigwait。 根 据 POSIX 标 准 ， 其 他 可 能 阻 守 的 系统 调用 ， 比 如 
read、wait， 也 可 以 成 为 取消 点 。 不 过 为 了 安全 起 见 ， 我 们 最 好 在 可 能 
会 被 取消 的 代码 中 调用 pthread_testcancel 范 数 以 设置 取消 点 。 


pthread_setcancelstate 和 pthread_setcanceltype 成 功 时 返回 909， 失败 则 
返回 错误 码 。 


14.3 ”线程 属性 


pthread_attr_ t 结 构 体 定义 了 一 套 完整 的 线程 属性 ， 如 下 所 示 : 


#include<bits/pthreadtypes.h> 
#define _SIZEOF_PTHREAD_ATTR_T 36 
typedef union 

{ 
char__size[__SIZEOF_PTHREAD_ATTR_T]; 
long int_ align; 

}pthread attr_t; 


可 见 ， 各 种 线程 属性 全 部 包含 在 一 个 字符 数组 中 。 线 程 库 定义 了 
ee 
线程 属性 。 这 些 函 数 包 括 : 


#include<pthread.h> 
/* 初 始 化 线程 属性 对 象 */ 
int pthread attr_ "nit(pthread. attr_t*attr); 
/* 销 毁 线程 属性 对 象 。 被 销毁 的 线程 属性 对 象 只 有 再 次 初始 化 之 后 才能 继续 使 用 */ 
int pthread attr_destroy(pthread attr_ t*attr); 
/* 下 面 这 些 函 数 用 于 获取 和 设置 线程 属性 对 象 的 某 个 属性 */ 
int pthread attr_getdetachstate(const 
pthread attr_t*attr,int*detachstate); 
int pthread attr_setdetachstate(pthread attr_t*attr,int 
detachstate); 
int pthread attr_getstackaddr(const 
pthread attr_t*attr,void**stackaddr ); 
int 
pthread attr_setstackaddr (pthread attr_t*attr,void*stackaddr ); 
int pthread attr_getstacksize(const 
pthread attr_t*attr,size t*stacksize); 
int pthread attr_setstacksize(pthread attr_t*attr, size 七 
stacksize); 
int pthread attr_getstack(const 
pthread attr_t*attr,void**stackaddr, size t*stacksize); 
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int 
pthread attr_setstack(pthread attr_t*attr,void*stackaddr, size_t 
stacksize); 

int pthread attr_getguardsize(const 
pthread attr_t* attr,size t*guardsize); 

int pthread attr_setguardsize(pthread attr_t*attr, Size _t 
guardsize); 

int pthread attr_getschedparam(const pthread attr_t*attr,struct 
sched_param*param); 

int pthread attr_setschedparam(pthread attr_t*attr,const struct 
sched_param*param); 

int pthread attr_getschedpolicy(const 
pthread attr_t*attr,int*policy); 

int pthread attr_setschedpolicy(pthread attr_t*attr,int policy); 

int pthread attr_getinheritsched(const 
pthread attr_t*attr,int*inherit); 

int pthread attr_setinheritsched(pthread attr_t*attr,int 
inherit); 

int pthread attr_getscope(const pthread attr_t*attr,int*scope); 

int pthread attr_setscope(pthread attr_t*attr,int scope); 


下 面 我 们 详细 讨论 每 个 线程 属性 的 含义 : 


口 detachstate， 线 程 的 脱离 状态 。 它 有 
PTHREAD_CREATE_JOINABLE 和 PTHREAD_CREATE_DETACH 两 个 
可 选 值 。 前 者 指定 线程 是 可 以 被 回收 的 ， 后 者 使 调用 线程 脱离 与 进程 
中 其 他 线程 的 同步 。 脱 离 了 与 其 他 线程 同步 的 线程 称 为 “脱离 线程 >。 
脱离 线程 在 退出 时 将 自行 释放 其 占用 的 系统 资源 。 线 程 创建 时 该 属性 
的 默认 值 是 PTHREAD_CREATE_JOINABLE。 此外， 我 们 也 可 以 使 用 
pthread_detach 函 数 直 接 将 线程 设置 为 脱离 线程 。 


口 stackaddr 和 stacksize， 线 程 堆栈 的 起 始 地 址 和 大 小 。 一 般 来 说 ， 
我 们 不 需要 目 己 来 管理 线程 堆栈 ， 因 为 Linux 默 认为 每 个 线程 分 配 了 足 


够 的 堆栈 空间 〈 一 般 是 8 MB) 。 我 们 可 以 使 用 ulimt-s 命 令 来 查看 或 修 
改 这 个 默认 值 。 


口 guardsize， 保 护 区 域 大 小 。 如 果 guardsize 大 于 0， 则 系统 创建 线 
程 的 时 候 会 在 其 堆栈 的 尾部 额外 分 配 guardsize 字 节 的 空间 ， 作 为 保护 
堆栈 不 被 错误 地 履 盖 的 区 域 。 如 果 guardsize 等 于 0， 则 系统 不 为 新 创建 
的 线程 设置 堆栈 保护 区 。 如 有 果 使 用 者 通过 pthread_attr_setstackaddr 或 
pthread_attr_setstack 芳 数 手动 设置 线程 的 堆栈 ， 则 guardsize 属 性 将 被 名 
略 。 


口 schedparam， 线 程 调 度 参 数 。 其 类 型 是 sched_param 结 构 体 。 该 
结构 体 目前 还 只 有 一 个 整 型 类 型 的 成 员 
不 线程 的 运行 优先 级 。 


sched_priority， 该 成 员 表 


Dschedpolicy， 线 程 调度 策略 。 该 属性 有 SCHED_FIFO、 
SCHED_RR 和 SCHED_OTHER 三 个 可 选 值 ， 其 中 SCHED_OTHER 是 默 
认 值 。SCHED_RR 表 示 采 用 轮转 算法 (round-robin) 调度 ， 
SCHED_FIFO 表 示 使 用 先进 先 出 的 方法 调度 ， 这 两 种 调度 方法 都 具备 
实时 调度 功能 ， 但 只 能 用 于 以 超级 用 户 身份 运行 的 进程 。 


Dinheritsched， 是 否 继承 调用 线程 的 调度 属性 。 该 属性 有 
PTHREAD INHERIT SCHED 和 PTHREAD_EXPLICIT SCHED 两 个 可 
选 值 。 前 者 表示 新 线程 沿用 其 创建 者 的 线程 调度 参数 ， 这 种 情况 下 再 


设置 狐 线 程 的 调度 参数 属性 将 没有 任何 效果 。 后 者 表示 调用 者 要 明确 
地 指定 新 线程 的 调度 参数 。 


口 scope， 线 程 间 竞 争 CPU 的 范围 ， 即 线程 优先 级 的 有 效 苑 围 。 
POSIX 标 准 定义 了 该 属性 的 PTHREAD_SCOPE_SYSTEM 和 
PTHREAD_SCOPE_PROCESS 两 个 可 选 值 ， 前 者 表示 目标 线程 扎 系 统 
中 所 有 线程 一 起 竞争 CPU 的 使 用 ， 后 者 表示 目标 线程 仅 与 其 他 隶属 于 
同一 进程 的 线程 竞争 CPU 的 使 用 。 目 前 Linux 只 支持 
PTHREAD_SCOPE_SYSTEM 这 一 种 取 值 。 


14.4 POSIX 信 号 量 


和 多 进程 程序 一 样 ， 多 线程 程序 也 必须 考虑 同步 问题 。 
pthread_join 可 以 看 作 一 种 简单 的 线程 同步 方式 ， 不 过 很 显然 ， 它 无 法 
高 效 地 实现 复 洒 的 同步 需求 ， 比 如 控制 对 共 至 资源 的 独占 式 访 问 ， 叉 
抑或 是 在 某 个 条 件 满 足 之 后 唤醒 一 个 线程 。 接 下 来 我 们 讨论 3 种 专门 用 
于 线程 同步 的 机 制 : POSIX 信 号 量 、 互 不 量 和 条 件 变量 。 


在 Linux 上 ， 信 号 量 API 有 两 组 。 一 组 是 第 13 章 讨论 过 的 System V 
IPC 信 和 号 量 ， 必 外 一 组 是 我 们 现在 要 讨论 的 POSIX 信 号 量 。 这 两 组 接口 
很 相似 ， 但 不 保证 能 互 换 。 由 于 这 两 种 信号 量 的 语义 完全 相同 ， 因 此 
我 们 不 再 络 述 信号 量 的 原理 。 


POSIX 信 和 号 量 函 数 的 名 字 都 以 sem_ 开头 ， 并 不 像 大 多 数 线程 函数 
那样 以 pthread_ 开头 。 常 用 的 POSIX 信 和 号 量 函 数 是 下 面 5 个 : 


#include< semaphore.h> 

int sem init(sem t*sem,int pshared,unsigned int value); 
int sem destroy(sem t*sem); 

int sem wait(sem t*sem); 

int sem trywait(sem t*sem); 

int sem post(sem t*sem); 


这 些 函 数 的 第 一 个 参数 sem 指 向 被 操作 的 信号 量 。 


sem_init 函 数 用 于 初始 化 一 个 未 命名 的 信号 量 (POSIX 信 号 量 API 
支持 命名 信和 号 量 ， 不 过 本 书 不 讨论 它 ) 。pshared 参 数 指定 信和 号 量 的 类 
型 。 如 果 其 值 为 0， 就 表示 这 个 信号 量 是 当前 进程 的 局 部 信号 量 ， 否 则 
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该 信号 量 束 可 以 在 多 个 进程 之 间 共 至 。value 参 数 指定 信号 量 的 初始 
值 。 此 外 ， 初 始 化 一 个 已 经 被 初始 化 的 信号 量 将 导致 不 可 预期 的 结 
果 。 


sem_destroy 函 数 用 于 销毁 信号 量 ， 以 释放 其 占用 的 内 核资 源 。 如 
果 销 毁 一 个 正 个 其 他 线程 等 得 的 信号 量 ， 则 将 导致 不 可 预期 的 结 


sem_wait 范 数 以 原子 操作 的 方式 将 信号 量 的 值 减 1。 如 采信 号 量 的 
值 为 0， 则 sem_wait 将 倍 阻 于， 直到 这 个 信号 量具 有 非 0 值 。 


sem_trywait 与 sem_wait 函 数 相似 ， 不 过 它 始 终 立 即 返 回 ， 而 不 论 
个 操 作 的 信号 量 是 否 具有 非 0 值 ， 相 当 于 sem_wait 的 非 阻塞 版 本 。 当 信 
号 量 的 值 非 0 时 ，sem_trywait 对 信号 量 执行 减 1 操作 。 当 信和 号 量 的 值 为 0 


时 ， 它 将 返回 -1 并 设置 errno 为 EAGAIN。 


sem_post 函 数 以 原子 操作 的 方式 将 信和 号 量 的 值 加 1。 当 信和 号 量 的 值 
大 于 0 时 ， 其 他 正在 调用 sem_wait 等 待 信号 量 的 线程 将 被 唤醒 。 


上 面 这 些 函 数 成 功 时 返回 0， 失 败 则 返回 -1 并 设置 errno。 


14.5 互 斥 锁 


互 斥 锁 (也 称 互 不 量 ) 可 以 用 于 保护 关键 代码 段 ， 以 确保 其 独占 
式 的 访问 ， 这 有 点 像 一 个 二 进 制 信号 量 〈《 见 13.5.1 小 节 ) 。 当 进入 关键 
代码 段 时 ， 我 们 需要 获得 互 不 锁 并 将 其 加 锁 ， 这 等 价 于 二 进 制 信号 量 
的 P 操 作 ; 当 离 开关 键 代 码 段 时 ， 我 们 需要 对 互 矿 锁 解锁 ， 以 唤醒 其 
他 等 每 该 互 不 锁 的 线程 ， 这 等 价 于 二 进 制 信号 量 的 V 操 作 。 


14.5.1 互 不 锁 基 础 API 


POSIX 互 不 锁 的 相关 函数 主要 有 如 下 5 个 : 


#include<pthread.h> 

int pthread mutex_init(pthread mutex_t*mutex,const 
pthread mutexattr_t*mutexattr); 

int pthread mutex_destroy(pthread mutex_t*mutex); 

int pthread mutex_lock(pthread mutex_t*mutex); 

int pthread mutex_trylock(pthread mutex_t*mutex); 

int pthread mutex_unlock(pthread mutex_t*mutex); 


这 些 函 数 的 第 一 个 参数 mutex 指 同 要 操作 的 目标 互 不 锁 ， 互 不 锁 的 
类 型 是 pthread_mutex_t 结 构 体 。 


pthread_mutex_init 芳 数 用 于 初始 化 互 不 锁 。mutexattr 参 数 指 定 互 
帮 锁 的 属性 。 如 果 将 它 设置 为 NULL， 则 表示 使 用 默认 属性 。 我 们 将 


在 下 一 小 方 讨论 互 不 锁 的 属性 。 除 了 这 个 函数 外 ， 我 们 还 可 以 使 用 如 
下 方式 来 初始 化 一 个 互 不 锁 : 


pthread mutex_t mutex=PTHREAD_MUTEX_INITIALIZER ; 


宏 PTHREAD MUTEX _INITIALIZER 实 际 上 只 是 把 互 斥 锁 的 各 个 
字段 都 初始 化 为 0。 


pthread_mnutex_destroy 函 数 用 于 销毁 互 斥 锁 ， 以 释放 其 占用 的 内 核 
资源 。 销 毁 一 个 已 经 加 锁 的 互 斥 锁 将 导致 不 可 预期 的 后 采 。 


pthread_mutex_lock 了 芳 数 以 原子 操作 的 方式 给 一 个 互 不 锁 加 锁 。 如 
果 目 标 互 斥 锁 已 经 被 锁 上 ， 则 pthread_mnutex_lock 调 用 将 阻塞 ， 直 到 该 
互 斥 锁 的 占有 者 将 其 解锁 。 


pthread_mutex_trylock 与 pthread_mutex_lock 函 数 类 似 ， 不 过 它 始 
终 立 即 返 回 ， 而 不 论 被 操作 的 互 斥 锁 是 否 已 经 被 加 锁 ， 相 当 于 
pthread_mnutex_lock 的 非 阻塞 版 本 。 当 目标 互 斤 锁 未 被 加 锁 时 ， 
pthread_mnutex_trylock 对 互 斥 锁 执 行 加 锁 操 作 。 当 互 斥 锁 已 经 被 加 锁 
时 ，pthread_mnutex_trylock 将 返回 错误 码 EBUSY。 需 要 注意 的 是 ， 这 
里 讨论 的 pthread_mutex_lock 和 pthread_mnutex_trylock 的 行为 是 针对 普 
通 锁 而 言 的 。 后 面 我 们 将 看 到 ， 对 于 其 他 类 型 的 锁 而 言 ， 这 两 个 加 锁 
函数 会 有 不 同 的 行为 。 


pthread_mutex_unlock 画 数 以 原子 操作 的 方式 给 一 个 互 斥 锁 解 锁 。 
如 果 此 时 有 其 他 线程 正在 等 待 这 个 互 不 锁 ， 则 这 些 线程 中 的 某 一 个 将 


tt/ZH 


狄 集 已 。 


上 面 这 些 函 数 成 功 时 返回 0， 失 败 则 返回 错误 码 。 


14.5.2” 互 不 锁 属 性 


pthread_mutexattr_t 结 构 体 定义 了 一 套 完 整 的 互 不 锁 属性 。 线 程 库 
提供 了 一 系列 函数 来 操作 pthread_mutexattr_t 类 型 的 变量 ， 以 方便 我 们 
获取 和 设置 互 不 锁 属性 。 这 里 我 们 列 出 其 中 一 些 主要 的 函数 : 


#include<pthread.h> 
/* 初 始 化 互 斥 锁 属 性 对 象 */ 
int pthread mutexattr_init(pthread mutexattr_t*attr); 
/销毁 互 斥 锁 属 性 对 象 */ 
int pthread mutexattr_destroy(pthread mutexattr_t*attr); 
/* 获 取 和 设置 互 斥 锁 的 pshared 属 性 */ 
int pthread mutexattr_getpshared(const 
pthread mutexattr_t*attr,int*pshared); 
int pthread mutexattr_setpshared(pthread mutexattr_t*attr,int 
pshared ) ; 
/* 获 取 和 设置 互 不 锁 的 type 属 性 */ 
int pthread mutexattr_gettype(const 
pthread mutexattr_t*attr,int*type); 
int pthread mutexattr_settype(pthread mutexattr_t*attr,int 
type); 
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本 书 只 讨论 互 不 锁 的 两 种 常用 属性 : pshared 和 和 type。 互 不 锁 属性 
pshared 指 定 是 否 允 许 跨 进程 共享 互 不 锁 ， 其 可 选 值 有 两 个 : 


口 PTHREAD _ PROCESS _ SHARED 。 互 斥 锁 可 以 被 跨 进 程 共享 。 


口 PTHREAD_PROCESS_PRIVATE。 互 斤 锁 只 能 被 和 锁 的 初始 化 
线程 隶属 于 同一 个 进程 的 线程 共享 。 


互 斥 锁 属 性 type 指 定 互 斥 锁 的 类 型 。Linux 文 持 如 下 4 种 类 型 的 互 
不 锁 : 


口 PTHREAD_MUTEX_NORMAL ， 普 通 锁 。 这 是 互 斥 锁 默 认 的 类 
型 。 当 一 个 线程 对 一 个 普通 锁 加 锁 以 后 ， 其 余 请 求 该 锁 的 线程 将 形成 
一 个 等 等 队列 ， 并 在 该 锁 解 锁 后 按 优先 级 获得 它 。 这 种 锁 类 型 你 证 了 
资源 分 配 的 公平 性 。 但 这 种 锁 也 很 容易 引发 问题 ， 一 个 线程 如 果 对 一 
个 已 经 加 锁 的 普通 锁 再 次 加 锁 ， 将 引发 死 锁 ;对 一 个 已 经 被 其 他 线程 
加 锁 的 普通 锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 普通 锁 再 次 解锁 ， 将 导致 
不 可 预期 的 后 果 。 


口 PTHREAD_MUTEX_ERRORCHECK， 检 错 锁 。 一 个 线程 如 果 
对 一 个 已 经 加 锁 的 检 错 锁 再 次 加 锁 ， 则 加 锁 操 作 返 回 EDEADLK。 对 
一 个 已 经 被 其 他 线程 加 锁 的 检 错 锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 检 错 
锁 再 次 解锁 ， 则 解锁 操作 返回 EPERM 。 


口 PTHREAD_ MUTEX_RECURSIVE， 航 套 锁 。 这 种 锁 人 允许 一 个 
线程 在 释放 锁 之 前 多 次 对 它 加 锁 而 不 发 生死 锁 。 不 过 其 他 线程 如 果 要 
获得 这 个 锁 ， 则 当前 锁 的 拥有 者 必须 执行 相应 次 数 的 解锁 操作 。 对 一 


个 已 经 被 其 他 线程 加 锁 的 相 套 锁 解锁 ， 或 者 对 一 个 已 经 解锁 的 藤 套 锁 
再 次 解锁 ， 则 解锁 操作 返回 EPERM 。 


口 PTHREAD_MUTEX_DEFAULT， 默 认 锁 。 一 个 线程 如 果 对 一 个 
已 经 加 锁 的 默认 锁 再 次 加 锁 ， 或 者 对 一 个 已 经 被 其 他 线程 加 锁 的 默认 
锁 解 锁 ， 或 者 对 一 个 已 经 解锁 的 默认 锁 再 次 解锁 ， 将 导致 不 可 预期 的 
后 采 。 这 种 锁 在 实现 的 时 候 可 能 被 映射 为 上 面 三 种 锁 之 一 。 


14.5.3 ”和 死 锁 举例 


使 用 互 斤 锁 的 一 个 焉 耗 是 死 饥 。 死 锁 使 得 一 个 或 多 个 线程 被 挂 起 
而 无 法 继续 执行 ， 而 且 这 种 情况 还 不 容易 被 发 现 。 前 文 提 到 ， 在 一 个 
线程 中 对 一 个 已 经 加 锁 的 普通 锁 再 次 加 锁 ， 将 导致 死 锁 。 这 种 情况 可 
能 出 现在 设计 得 不 够 仔细 的 递归 函数 中 。 男 外 ， 如 有 果 两 个 线程 按照 不 
同 的 顺序 来 申请 两 个 互 斥 锁 ， 也 容易 产生 死 锁 ， 如 代码 清单 14-1 所 


人 小? 


代码 清单 14-1 按 不 同 顺序 访问 互 斥 锁 导 致死 锁 


#include<pthread.h> 
#include<unistd.h> 
#include< stdio.h> 

int a=0; 

int b=0; 

pthread mutex_t mutex_a; 
pthread mutex_t mutex_b; 
void*another (void*arg) 


pthread mutex_lock(&mutex_b); 

printf("in child thread,got mutex b,waiting for mutex a\n"); 
sleep(5); 

++b ， 

pthread mutex_lock(&mutex_a); 

b+=a++; 

pthread_ mutex_unlock(&mutex_a); 

pthread_ mutex_unlock(&mutex_b); 

pthread_exit (NULL); 

} 


int main() 


pthread_t id; 

pthread mutex_init(&mutex_a,NULL); 
pthread mutex_init(&mutex_b,NULL); 
pthread_ create(&id,NULL,another, NULL); 
pthread mutex_lock(&mutex_a); 
printf("in parent thread,got mutex a,waiting for mutex b\n"); 
sleep(5); 

++a; 

pthread mutex_lock(&mutex_b); 

a+=b++， 

pthread_ mutex_unlock(&mutex_b); 
pthread_ mutex_unlock(&mutex_a); 
pthread_join(id,NULL); 

pthread mutex_destroy(&mutex_a); 
pthread mutex_destroy(&mutex_b); 
return ©; 


} 


代码 清单 14-1 中 ， 主 线程 试图 先 占有 互 不 锁 mutex_a， 然 后 操作 被 
该 锁 保 护 的 变量 a， 但 操作 完毕 之 后 ， 主 线程 并 没有 立即 释放 互 不 锁 
mnutex_a， 而 是 又 申请 互 斥 锁 mutex_b， 并 在 两 个 互 斥 锁 的 保护 下 ， 操 
作 变 量 a 和 b， 最 后 才 一 起 释放 这 两 个 互 斤 锁 ; 与 此 同时 ， 子 线程 则 按 
照相 反 的 顺序 来 申请 互 斥 锁 mutex_a 和 mutex_b， 并 在 两 个 锁 的 保护 下 
操作 变量 a 和 b“。 我 们 用 sleep 画 数 来 模拟 连续 两 次 调用 
pthread_mutex_lock 之 间 的 时 间 差 ， 以 确保 代码 中 的 两 个 线程 各 目 和 完 占 


有 一 个 互 斥 锁 (主线 程 占有 mutex_a， 子 线程 占有 mutex_b) ， 然 后 等 
待 另外 一 个 互 斥 锁 〈 主 线程 等 待 mutex_b， 子 线程 等 待 mutex_a) 。 这 
样 ， 两 个 线程 束 僵 持 住 了 ， 谁 都 不 能 继续 往 下 执行 ， 从 而 形成 死 锁 。 
如 宋代 码 中 不 加 入 sleep 轴 数 ， 则 这 段 代 人 码 或 许 总 能 成 功 地 运行 ， 从 而 
为 程序 留 下 了 一 个 潜在 的 BUG 。 


14.6 条件 变量 


如 果 说 互 不 锁 是 用 于 同步 线程 对 共 至 数据 的 访问 的 话 ， 那 么 条 件 
变量 则 是 用 于 在 线程 之 间 同 步 共 至 数据 的 值 。 条 件 变 量 提供 了 一 种 线 
程 间 的 通知 机 制 : 当 某 个 共 主 数据 达到 有 某 个 值 的 时 候 ， 唤 醒 等 竺 这 个 
共 至 数据 的 线程 。 


条 件 变量 的 相关 画 数 主要 有 如 下 5 个 : 


#include<pthread.h> 
int pthread cond_init(pthread cond_t*cond,const 
pthread _ condattr_t*cond_attr); 
int pthread_ cond_ destroy(pthread_cond t*cond); 
int pthread cond_broadcast(pthread_cond_t*cond); 
int pthread_ cond_signal(pthread cond_t*cond); 
int 
pthread cond wait(pthread_ cond t*cond,pthread mutex_t*mutex); 


这 些 函 数 的 第 一 个 参数 cond 指 癌 要 操作 的 目标 条 件 变量 ， 条 件 变 
量 的 类 型 是 pthread_cond_t 结 构 体 。 


pthread_cond_init 函 数 用 于 初始 化 条 件 变量 。cond_attr 参 数 指定 条 
件 变量 的 属性 。 如 果 将 它 设置 为 NULL， 则 表示 使 用 默认 属性 。 条 件 
变量 的 属性 不 多 ， 而 且 和 互 斥 锁 的 属性 类 型 相似 ， 所 以 我 们 不 再 痪 
述 。 除 了 pthread_cond_init 函 数 外 ， 我 们 还 可 以 使 用 如 下 方式 来 初始 化 


一 个 条 件 变量 ， 


pthread_cond_t cond=PTHREAD_COND_INITIALIZER ; 


宏 PTHREAD _COND INITIALIZER 实 际 上 只 是 把 条 件 变 量 的 各 个 
字段 都 初始 化 为 0。 


pthread_cond_destroy 函 数 用 于 销毁 条 件 变量 ， 以 释放 其 占用 的 内 
核资 源 。 销 毁 一 个 正在 被 等 竺 的 条 件 变 量 将 失败 并 返回 EBUSY。 


pthread_cond_broadcast 函 数 以 广播 的 方式 唤醒 所 有 等 竺 目标 条 件 
变量 的 线程 。pthread_cond_signal 函 数 用 于 唤醒 一 个 等 竺 目标 条 件 变 量 
的 线程 。 至 于 哪个 线程 将 被 唤醒 ， 则 取决 于 线程 的 优先 级 和 调度 策 
略 。 有 时 候 我 们 可 能 想 唤 醒 一 个 指定 的 线程 ， 但 pthread 没 有 对 该 需求 
提供 解决 方法 。 不 过 我 们 可 以 间接 地 实现 该 需求 : 定义 一 个 能 够 唯一 
表示 目标 线程 的 全 局 变量 ， 在 唤醒 等 待 条 件 变量 的 线程 前 先 设 置 该 变 
量 为 目标 线程 ， 然 后 采用 广播 方式 唤醒 所 有 等 待 条 件 变量 的 线程 ， 这 
些 线程 被 唤醒 后 都 检查 该 变量 以 判断 被 唤醒 的 是 否 是 自己 ， 如 果 是 就 
开始 执行 后 续 代 码 ， 如 果 不 是 则 返回 继续 等 待 。 


pthread_cond_wait 函 数 用 于 等 待 目标 条 件 变量 。mnutex 人 参数 是 用 于 
保护 条 件 变 量 的 互 斥 锁 ， 以 确保 pthread_cond_wait 操 作 的 原子 性 。 在 
调用 pthread_cond_wait 并 ， 必 须 确 保 互 扩 锁 mutex 已 经 加 锁 ， 否 则 将 导 
致 不 可 预期 的 结果 。pthread_cond_wait 函 数 执行 时 ， 首 先 把 调用 线程 
放 入 条 件 变 量 的 等 得 队列 中 ， 然 后 将 互 不 锁 mutex 解 锁 。 可 见 ， 从 


pthread_cond_wait 开 始 执行 到 其 调用 线程 被 放 入 条 件 变量 的 等 待 队列 
之 间 的 这 段 时 间 内 ， er 函 
数 不 会 修改 条 件 变 量 。 换 言 之 ，pthread_cond_wait 函 数 不 会 错过 目标 
条 件 变 量 的 任何 变化 四 。 当 pthread_cond_wait 画 数 成 功 返 回 时 ， 互 斥 
锁 mutex 将 再 次 被 锁 上 。 


上 面 这 些 函 数 成 功 时 返回 0， 失 败 则 返回 错误 码 。 


14.7 ”线程 同步 机 制 包 半 类 


为 了 充分 复 用 代码 ， 同 时 由 于 后 文 的 需要 ， 我 们 将 前 面 讨论 的 3 种 
线程 同步 机 制 分 别 封 装 成 3 个 类 ， 实 现在 lockerh 文 件 中 ， 如 代码 清单 
14-2 所 示 。 


代码 清单 14-2 ”lockerh 文 件 


#ifndef LOCKER_H 
#define LOCKER_H 
#include<exception> 
#include<pthread.h> 
#include< semaphore.h> 
/* 封 闭 信 号 量 的 类 */ 
class sem 

{ 

public: 

/* 创 建 并 初始 化 信号 量 */ 
Sem( ) 


if(sem init(&m _ sem,0,0)1=0) 


{ 
/* 构 造 画 数 没有 返回 值 ， 可 以 通过 抛 出 异常 来 报告 错误 */ 
throw std::exception(); 


} 


} 
/* 销 毁 信 和 号 量 */ 
~sem() 


sem_destroy(&m_ sem); 


/* 等 待 信号 量 */ 
bool wait() 
{ 


return sem wait(&m sem)==0; 


/* 增 加 信号 量 */ 


bool post() 


return sem post(&m sem)==0; 
} 

private: 

sem t m_sem; 

}; 

/* 封 装 互 斥 锁 的 类 */ 
class locker 

{ 

public: 

/* 创 建 并 初始 化 互 不 锁 */ 
locker() 


if(pthread mutex_init(&m mutex,NULL)!'=0) 
{ 


throw std::exception(); 


} 


} 
/* 销 毁 互 不 锁 */ 
~locker() 


pthread mutex_destroy(&m mutex); 


} 

/* 获 取 互 不 锁 */ 
bool lock() 
{ 


return pthread mutex_ lock(&m mutex)==0; 


} 

/* 释 放 互 不 锁 */ 

bool unlock() 

{ 

return pthread_ mutex_unlock(&m mutex )==0; 
} 

private: 

pthread mutex_t m mutex; 


[A 
/* 封 装 条 件 变 量 的 类 */ 
class cond 


{ 


public: 
/* 创 建 并 初始 化 条 件 变量 */ 
cond() 


if(pthread mutex_init(&m mutex,NULL)!'=0) 
{ 


throw std::exception(); 


} 


if(pthread cond_init(&m cond,NULL)!=0) 


{ 

/* 构 造 五 数 中 一 旦 出 现 问 题 ， 就 应 该 立即 释放 已 经 成 功 分 配 了 的 资源 */ 
pthread mutex_destroy(&m mutex); 

throw std::exception(); 


} 


/* 销 毁 条 件 变 量 */ 
~cond() 


{ 


pthread mutex_destroy(&m mutex); 
pthread_ cond_destroy(&m cond); 


/* 等 待 条 件 变量 */ 

bool wait() 

{ 

int ret=0; 

pthread mutex_lock(&m mutex); 
ret=pthread_cond wait(&m cond,&m mutex); 
pthread_ mutex_unlock(&m mutex); 

return ret==0; 


} 
/* 唤 醒 等 待 条 件 变量 的 线程 */ 
bool signal() 


return pthread_cond_signal(&m cond)==0; 
} 

private: 

pthread mutex_t m mutex; 

pthread_ cond_t m cond; 

}; 

#endif 


14.8 多 线程 环境 


14.8.1 可 重 入 函数 


如 果 一 个 函数 能 被 多 个 线程 同时 调用 且 不 发 生 竞 态 条 件 ， 则 我 们 
称 它 是 线程 安全 的 (thread safe) ， 或 者 说 它 是 可 重 入 函数 。Linux 库 
函数 只 有 一 小 部 分 是 不 可 重 入 的 ， 比 如 5.1.4 小 节 讨 论 的 inet_ntoa 函 
数 ， 以 及 5.12.2 小 节 讨 论 的 getservbyname 和 getservbyport 函 数 。 关 于 
Linux 上 不 可 重 入 的 库 函 数 的 完整 列表 ， 请 读者 参考 相关 书籍 ， 这 里 不 

痪 述 。 这 些 库 函 数 之 所 以 不 可 重 入 ， 主 要 是 因为 其 内 部 使 用 了 静态 

变量 。 不 过 Linux 对 很 多 不 可 重 入 的 库 函 数 提 供 了 对 应 的 可 重 入 版 本 ， 

这 些 可 重 入 版 本 的 函数 名 是 在 原 函 数 名 尾部 加 上 _r。 比 如 ， 画 数 
localtime 对 应 的 可 重 入 函数 是 localtime_r。 在 多 线程 程序 中 调用 库 函 
数 ， 一 定 要 使 用 其 可 重 入 版 本 ， 否 则 可 能 导致 预想 不 到 的 结果 。 


14.8.2 ”线程 和 进程 


思考 这 样 一 个 问题 : 如 果 一 个 多 线程 程序 的 某 个 线程 调用 了 fork 
函数 ， 那 么 新 创建 的 子 进程 是 否 将 目 动 创建 和 父 进程 相同 数量 的 线程 
呢 ? 答案 是 “人 否 "， 正 如 我 们 期 望 的 那样 。 子 进程 只 拥有 一 个 执行 线 
程 ， 它 是 调用 fork 的 那个 线程 的 完整 复制 。 并 且 子 进程 将 目 动 继承 父 


进程 中 互 斥 锁 (条 件 变量 与 之 类 似 ) 的 状态 。 也 就 是 说 ， 父 进程 中 已 
经 被 加 锁 的 互 斥 锁 在 子 进程 中 也 是 被 锁 住 的 。 这 就 引起 了 一 个 问题 : 
子 进 程 可 能 不 清楚 从 父 进程 继承 而 来 的 互 斥 锁 的 具体 状态 (是 加 锁 状 
态 还 是 解锁 状态 ) 。 这 个 互 斥 锁 可 能 被 加 锁 了 ， 但 并 不 是 由 调用 fork 
函数 的 那个 线程 锁 住 的 ， 而 是 由 其 他 线程 锁 住 的 。 如 果 是 这 种 情况 ， 
则 子 进程 车 再 次 对 该 互 不 锁 执 行 加 锁 操 作 就 会 导致 死 锁 ， 如 代码 清单 
14-3 所 示 。 


代码 清单 14-3 ”在 多 线程 程序 中 调用 fork 函 数 


#include<pthread.h> 

#include<unistd.h> 

#include<stdio.h> 

#include< stdlib.h> 

#include<wait.h> 

pthread mutex_t mutex; 

/* 子 线程 运行 的 函数 。 它 首先 获得 互 斥 锁 mutex， 然 后 暂停 5 s， 再 释放 该 互 斥 锁 */ 
void*another(void*arg ) 


printf("in child thread,1lock the mutex\n"); 
pthread mutex_lock(&mutex); 

sleep(5); 

pthread mutex_unlock(&mutex); 


int main() 

{ 

pthread mutex_init(&mutex,NULL); 

pthread_t id; 

pthread_ create(&id,NULL,another, NULL); 

/* 父 进程 中 的 主线 程 暂停 1 s， 以 确保 在 执行 fork 操 作 之 前 ， 子 线程 已 经 开始 运行 并 获 
得 了 互 不 变量 mutex*/ 

sleep(1); 

int pid=fork(); 

if(pid<0) 


{ 
pthread_join(id,NULL); 
pthread mutex_destroy(&mutex); 


return 1; 
} 
else if(pid==0) 


printf("I am in the child,want to get the lock\n"); 

/* 子 进程 从 父 进程 继承 了 互 斥 锁 mutex 的 状态 ， 该 互 斤 锁 处 于 锁 住 的 状态 ， 这 是 由 父 进 
程 中 的 子 线程 执行 pthread mutex_lock3 引 起 的 ， 因 此 ， 下 面 这 人 句 加 锁 操作 会 一 直 阻 塞 ， 
雯 管 从 逻辑 上 来 说 它 是 不 应 该 阻塞 的 */ 

pthread mutex_lock(&mutex); 

printf("I can not run to here,oop...\n"); 

pthread mutex_unlock(&mutex); 

exit(0); 


else 


{ 
wait (NULL); 


pthread_join(id,NULL); 
pthread_ mutex_destroy(&mutex); 
return ©; 


} 


不 过 ，pthread 提 供 了 一 个 专门 的 函数 pthread_atfork， 以 确保 fork 
调用 后 父 进程 和 子 进 程 都 拥有 一 个 清楚 的 锁 状态 。 该 函数 的 定义 如 
下 : 

ee ee 
(void),void(*child)(void)); 

函数 将 建立 3 个 fork 句 柄 来 帮助 我 们 清理 互 斥 锁 的 状态 。prepare 
句柄 将 在 fork 调 用 创建 出 子 进程 之 前 被 执行 。 它 可 以 用 来 锁 住 所 有 父 
进程 中 的 互 斥 锁 。parent 句 柄 则 是 fork 调 用 创建 出 子 进 程 之 后 ， 而 fork 
返回 之 前 ， 在 父 进程 中 被 执行 。 它 的 作用 是 释放 所 有 在 prepare 句 柄 中 
被 锁 住 的 互 斥 锁 。child 句 柄 是 fork 返 回 之 前 ， 在 子 进程 中 被 执行 。 和 


parent 句 柄 一 样 ，child 句 柄 也 是 用 于 释放 所 有 在 prepare 句 柄 中 被 锁 住 的 
互 不 锁 。 该 函数 成 功 时 返回 9， 失 败 则 返回 错误 码 。 


因此 ， 如 果 要 让 代码 清单 14-3 正 常 工 作 ， 束 应 该 在 其 中 的 fork 调 用 
前 加 入 代码 清单 14-4 所 示 的 代码 。 


void prepare'( ) 


代码 清单 14-4 ”使 用 pthread_atfork 函 数 


pthread mutex_lock(&mutex); 
void infork() 
pthread mutex_unlock(&mutex); 


pthread atfork(prepare, infork,infork); 


14.8.3 ”线程 和 信号 


每 个 线程 都 可 以 独立 地 设置 信号 掩 码 。 我 们 在 10.3.2 小 节 讨论 过 设 
置 进程 信号 掩 码 的 函数 sigprocmask， 但 在 多 线程 环境 下 我 们 应 该 使 用 
如 下 所 示 的 pthread 版 本 的 sigprocmask 碎 数 来 设置 线程 信号 掩 码 : 

#include<pthread.h> 
#include<signal.h> 


int pthread _ sigmask(int how,const 
sigset_t*newmask, sigset_t*oldmask ) ; 


该 函数 的 参数 的 含义 与 sigprocmask 的 参数 完全 相同 ， 因 此 不 再 玖 
述 。pthread_sigmask 成 功 时 返回 9， 失 败 则 返回 错误 码 。 


由 于 进程 中 的 所 有 线程 共 至 该 进程 的 信和 号， 所 以 线程 库 将 根据 线 
程 掩 码 决定 把 信号 发 送 给 哪个 具体 的 线程 。 因 此 ， 如 果 我 们 在 每 个 子 
线程 中 都 单独 设置 信号 抗 码 ， 束 很 容易 导致 逻辑 错误 。 此 外 ， 所 有 线 
程 共 胖 信号 处 理 函 数 。 也 天 是 说 ， 当 我 们 在 一 个 线程 中 设置 了 某 个 信 
号 的 信号 处 理 函 数 后 ， 它 将 履 关 其 他 线程 为 同一 个 信号 设置 的 信号 处 
理 函 数 。 这 两 点 都 说 明 ， 我 们 应 该 定义 一 个 专门 的 线程 来 处 理 所 有 的 
信号 。 这 可 以 通过 如 下 两 个 步 又 来 实现 : 


1) 在 主线 程 创建 出 其 他 子 线程 之 前 就 调用 pthread_sigmask 来 设置 
好 信号 掩 码 ， 所 有 新 创建 的 子 线程 都 将 目 动 继 承 这 个 信号 掩 码 。 这 样 
做 之 后 ， 实 际 上 所 有 线程 都 不 会 啊 应 被 屏蔽 的 信号 了 。 


2) 在 某 个 线程 中 调用 如 下 画 数 来 等 待 信和 号 并 处 理 之 : 


1 

set 参 数 指定 需要 等 待 的 信号 的 集合 。 我 们 可 以 简单 地 将 其 指定 为 
在 第 1 步 中 创建 的 信号 掩 码 ， 表 示 在 该 线程 中 等 待 所 有 被 屏蔽 的 信号 。 
参数 sig 指 向 的 整数 用 于 存储 该 画 数 返回 的 信号 值 。sigwait 成 功 时 返回 
0， 失 败 则 返回 错误 码 。 一 旦 sigwait 正 确 返 回 ， 我 们 就 可 以 对 接收 到 的 


言 写 做 处 理 了 。 很 显然 ， 如 末 我 们 使 用 了 sigwait， 殊 不 应 该 再 为 信和 与 
设置 信号 处 理 函 数 了 。 这 是 因为 当 程序 接收 到 信和 号 时 ， 二 者 中 只 能 有 
一 个 起 作用 。 


代码 清单 14-5 取 目 pthread_sigmask 函 数 的 man 手 册 。 它 展示 了 如 何 
过 上 述 两 个 步骤 实现 在 一 个 线程 中 统一 处 理 所 有 信和 号 。 


代码 清单 14-5 用 一 个 线程 处 理 所 有 信和 号 


#include<pthread.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<unistd.h> 
#include<signal.h> 
#include<errno.h> 

#define handle_error_en(en,msg)\ 
do{errno=en;perror(msg);exit(EXIT_FAILURE); }while(0) 
static void*sig thread(void*arg) 
{ 

sigset_t*set=(sigset t*)arg; 

int s,sig; 

for(;;) 


和 人 氏 


/* 第 二 个 步骤 ， 调 用 sigwait 等 待 信号 */ 

s=sigwait(set, &sig); 

if(s!=0) 

handle_error_en(s,"sigwait"); 

printf("Signal handling thread got signal%d\n",sig); 
} 

} 


int main(int argc,char*argv[]) 


{ 

pthread_t thread; 

sigset_t set,; 

int s; 

/* 第 一 个 步骤 ， 在 主线 程 中 设置 信号 掩 码 */ 
sigemptyset(&set); 
sigaddset(&set,SIGQUIT); 
sigaddset(&set,SIGUSR1); 


s=pthread_ sigmask(SIG BLOCK, &set, NULL); 

if(s!=0) 

handle_error_en(s,"pthread_ sigmask"); 
s=pthread_create(&thread,NULL,&sig thread, (void*)&set); 
if(s!=0) 

handle_error_en(s,"pthread create"); 

pause( ); 


最 后 ，pthread 还 提供 了 下 面 的 方法 ， 使 得 我 们 可 以 明确 地 将 一 个 
言 号 发 送 给 指定 的 线程 : 


#include<signal.h> 
int pthread kill(pthread_t thread,int sig); 


其 中 ，thread 参 数 指 定 目 标 线程 ，sig 参 数 指定 待 发 送 的 信号 。 如 
采 sig 为 0， 则 pthread_kill 不 发 送信 号 ， 但 它 任 然 会 执行 错误 检查 。 我 们 
可 以 利用 这 种 方式 来 检测 目标 线程 是 否 存在 。pthread_kill 成 功 时 返回 
0， 失 败 则 返回 错误 码 。 


第 15 曹 ”进程 池 和 线程 池 


在 前 面 的 章节 中 ， 我 们 是 通过 动态 创建 子 进程 《或 子 线程 ) 来 实 
现 并 发 服务 万 的 。 这 样 做 有 如 下 缺 扣 : 


口 动态 创建 进程 《或 线程 ) 是 比较 耗费 时 间 的 ， 这 将 导致 较 慢 的 
客户 响应 。 


口 动态 创建 的 子 进程 《或 子 线程 ) 通常 只 用 来 为 一 个 客户 服务 
(除非 我 们 做 特殊 的 处 理 ) ， 这 将 导致 系统 上 产生 大 量 的 细微 进程 
(或 线程 ) 。 进 程 《或 线程 ) 间 的 切换 将 消耗 大 量 CPU 时 间 。 


口 动态 创建 的 子 进程 是 当前 进程 的 完整 映像 。 当 前 进程 必须 谨慎 
地 管理 其 分 配 的 文件 摘 述 符 和 扒 内 存 等 系统 货源 ， 否 则 子 进程 可 能 复 
制 这 些 资 源 ， 从 而 使 系统 的 可 用 资源 急剧 下 降 ， 进 而 影响 服务 如 的 性 


Eo 


ml 


第 8 章 介绍 过 的 进程 池 和 线程 池 可 以 解决 上 述 问 题 。 本 章 将 分 析 这 
两 种 “ 池 ?” 的 细节 ， 给 出 它们 的 通用 实现 ， 并 分 别 用 进程 池 和 线程 池 来 
实现 商 单 的 并 发 服务 郁 


15.1 进程 池 和 线程 池 概述 


进程 池 和 线程 池 相 似 ， 所 以 这 里 我 们 只 以 进程 池 为 例 进行 介绍 。 
如 没有 特殊 声明 ， 下 面 对 进程 池 的 讨论 完全 适用 于 线程 池 。 


进程 池 是 由 服务 器 预先 创建 的 一 组 子 进程 ， 这 些 子 进程 的 数目 在 3 
一 10 个 之 间 〈 当 然 ， 这 只 是 典型 情况 ) 。 比 如 13.5.5 小 节 所 描述 的 ， 
httpd 守 护 进程 束 是 使 用 包含 7 个 子 进 程 的 进程 池 来 实现 并 发 的 。 线 程 池 
中 的 线程 数量 应 该 和 CPU 数量 差不多 。 


进程 池 中 的 所 有 子 进程 都 运行 着 相同 的 代码 ， 并 具有 相同 的 属 
性 ， 比 如 优先 级 、PGID 等 。 因 为 进程 池 在 服务 器 启动 之 初 就 创建 好 
了 ， 所 以 每 个 子 进程 都 相对 “干净 ”， 即 它们 没有 打开 不 必要 的 文件 描 
述 符 〈《 从 父 进程 继承 而 来 ) ， 也 不 会 错误 地 使 用 大 块 的 堆 内 存 (从 父 
进程 复制 得 到 ) 。 


当 有 新 的 任务 到 来 时 ， 主 进程 将 通过 某 种 方式 选择 进程 池 中 的 某 

个 子 进程 来 为 之 服务 。 相 比 于 动态 创建 子 进程 ， 选 择 一 个 已 经 存在 

的 于 进程 的 代价 显然 要 小 得 多 。 至 于 主 进程 选择 哪个 子 进程 来 为 新 任 
务 服务 ， 则 有 两 种 方式 : 


口 主 进程 使 用 某 种 算法 来 主动 选择 子 进程 。 最 简单 、 最 
法 是 随机 算法 和 Round Robin (轮流 选取 ) 算法 ， 但 更 优秀 、 更 智能 的 
算法 将 使 任务 在 各 个 工作 进程 中 更 均匀 地 分 配 ， 从 而 减轻 服务 絮 的 整 
体 压 力 。 


口 主 进程 和 所 有 子 进程 通过 一 个 共享 的 工作 队列 来 同步 ， 子 进程 
都 睡眠 在 该 工作 队列 上 。 当 有 新 的 任务 到 来 时 ， 主 进程 将 任务 添加 到 
工作 队列 中 。 这 将 唤醒 正在 等 竺 任务 的 子 进程 ， 不 过 只 有 一 个 子 进程 
将 获得 新 任务 的 “接管 权 ”， 它 可 以 从 工作 队列 中 取出 任务 并 执行 之 ， 
而 其 他 子 进 程 将 继续 睡眠 在 工作 队列 上 。 


当选 择 好 子 进程 后 ， 主 进程 还 需要 使 用 茶 种 通知 机 制 来 告诉 目标 
子 进程 有 新 任务 需要 处 理 ， 并 传递 必要 的 数据 。 最 简单 的 方法 是 ,在 
父 进程 和 子 进程 之 间 预 完 建立 好 一 条 管道 ， 然 后 通过 该 管道 来 实现 所 
有 的 进程 间 通 信 (当然 ， 要 预先 定 义 好 一 套 协 议 来 规范 管道 的 使 
用 ) 。 在 父 线程 和 子 线程 之 间 传 递 数据 就 要 简单 得 多 ， 因 为 我 们 可 以 
把 这 些 数 据 定 义 为 全 局 的 ， 那 么 它们 本 身 就 是 被 所 有 线程 共享 的 。 


综合 上 面 的 论述 ， 我 们 将 进程 池 的 一 般 模 型 描绘 为 图 15-1 所 示 的 形 
式 O 
通知 机 制 进程 池 
选择 算法 
随机 算法 /Round 


Robin 算 法 /工作 队列 


图 15-1 进程 池 模 型 


15.2 ”处 理 多 客户 


在 使 用 进程 池 处 理 多 客户 任务 时 ， 首 先 要 考虑 的 一 个 问题 是 : 监 
听 socket 和 连接 socket 是 否 都 由 主 进程 来 统一 管理 。 回 忆 第 8 章 中 我 们 介 
绍 过 的 几 种 并 发 模式 ， 其 中 半 同 步 / 半 反 应 堆 模 式 是 由 主 进程 统一 管理 
这 两 种 socket 的 ;而 图 8-11 所 示 的 高 效 的 半 同 步 / 半 异步 模式 ， 以 及 领导 
者 /追随 者 模式 ， 则 十 由 主 进程 管理 所 有 监听 socket， 而 各 个 子 进 程 分 别 
管理 属于 自己 的 连接 socket 的 。 对 于 前 一 种 情况 ， 主 进程 接受 新 的 连接 
以 得 到 连接 socket， 然 后 它 需 要 将 该 socket 传 递 给 子 进 程 “对 于 线程 池 
而 言 ， 父 线程 将 socket 传 递 给 子 线 程 是 很 倘 单 的 ， 因 为 它们 可 以 很 容易 
地 共 吾 该 socket。 但 对 于 进程 池 而 言 ， 我 们 必须 使 用 13.9 市 介绍 的 方法 
来 传递 该 socket) 。 后 一 种 情况 的 灵活 性 更 大 一 些 ， 因 为 子 进程 可 以 目 
己 调 用 accept 来 接受 新 的 连接 ， 这 样 父 进程 就 无 须 同 子 进程 传递 
socket， 而 只 需要 简单 地 通知 一 声 : “我 检测 到 新 的 连接 ， 你 来 接受 


人 


忆 2” 


在 4.6.1 小 廊 中 我 们 曾 讨 论 过 党 连接 ， 即 一 个 客户 的 多 次 请 求 可 以 
复 用 一 个 TCP 连 接 。 那 么 ， 在 设计 进程 池 时 还 需要 考虑 : 一 个 客户 连接 
上 的 所 有 任务 是 否 始终 由 一 个 子 进 程 来 处 理 。 如 果 说 客户 任务 是 无 状 
态 的 ， 那 么 我 们 可 以 考虑 使 用 不 同 的 子 进程 来 为 该 客户 的 不 同 请 求 服 
务 ， 如 图 15-2 所 示 。 


客户 请 求 1， 客 户 请 求 2 


回应 1， 回 应 2 


图 15-2 多 个 子 进程 处 理 同一 个 客户 连接 上 的 不 同 任务 


但 如 果 客 户 任务 是 存在 上 下 文 关系 的 ， 则 最 好 一 直 用 同一 个 子 进 
程 来 为 之 服务 ， 否 则 实现 起 来 将 比较 麻烦 ， 因 为 我 们 不 得 不 在 各 子 进 
程 之 间 传 递 上 下 文 数据 。 在 9.3.4 小 节 中 ， 我 们 讨论 了 epoll 的 
EPOLLONESHOT 事 件 ， 这 一 事件 能 够 确保 一 个 客户 连接 在 整个 生命 周 
期 中 仅 被 一 个 线程 处 理 。 


15.3” 半 同步 / 半 异 步 进 程 池 实现 


综合 前 面 的 讨论 ， 本 万 我 们 实现 一 个 基于 图 8-11 所 示 的 半 同 步 / 半 


异步 并 发 模式 的 进程 池 ， 如 代码 清单 15-1 所 示 。 为 了 避免 在 父 、 了 于 进 


程 之 间 传 递 文 件 描述 符 ， 我 们 将 接受 狐 连 接 的 操作 放 到 子 进程 中 。 很 
显然 ， 对 于 这 种 模式 而 言 ， 一 个 客户 连接 上 的 所 有 任务 始终 是 由 一 个 
子 进程 来 处 理 的 。 


代码 清单 15-1 半 同 步 / 半 异 步 进 程 池 


//filename:processpool.h 
#ifndef PROCESSPOOL_H 
#define PROCESSPOOL_H 
#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl.h> 
#include<stdlib.h> 
#include<sys/epoll.h> 
#include<signal.h> 
#include<sys/wait.h> 
#include<sys/stat.h> 
/* 描 述 一 个 子 进程 的 类 ，m_pid 是 目标 子 进程 的 PITD，m_pipefd 是 父 进程 和 子 进 程 通 


的 管道 */ 


class process 


{ 

public: 
process():m_pid(-1){} 
public: 


pid_t m _ pid ， 

int m_pipefd[2]; 

}; 

/* 进 程 池 类 ， 将 它 定义 为 模板 类 是 为 了 代码 复 用 。 其 模板 参数 是 处 理 逻 辑 任 务 的 类 */ 
template<typename T> 

class processpool 


{ 


private: 

/将 构造 函数 定义 为 私有 的 ， 因 此 我 们 只 能 通过 后 面 的 create 静 态 函 数 来 创建 
processpoo1 实 例 */ 

processpool(int listenfd,int process_number=8) ; 

public: 

/* 单 体 模式 ， 以 保证 程序 最 多 创建 一 个 processpoo1 实 例 ， 这 是 程序 正确 处 理 信 号 的 
必要 条 件 */ 

static processpool<T>*create(int listenfd,int process_number=8 ) 

{ 

if(!m_ instance) 

{ 


m_instance=new processpool<T> (listenfd,process_ number); 


} 


return m instance; 


} 


~processpool() 


{ 

delete[]m sub_process; 

} 

/* 局 动 进程 池 */ 

void run(); 

private: 

void setup_sig pipe(); 

void run_parent(); 

void run_child(); 

private: 

/* 进 程 池 人 允许 的 最 大 子 进程 数量 */ 

static const int MAX_ PROCESS NUMBER=16; 
/* 每 个 子 进程 最 多 能 处 理 的 客户 数量 */ 

static const int USER PER _ PROCESS=65536; 
/*epoll1 最 多 能 处 理 的 事件 数 */ 

static const int MAX_EVENT_NUMBER=10000; 
/* 进 程 池 中 的 进程 总 数 */ 

int m_process_number; 

/* 子 进程 在 池 中 的 序号 ， 从 9 开始 */ 
int m Idx， 
/* 每 个 进程 都 有 一 个 epo1l1 内 核 事 件 表 ， 用 m_epollfd 标 识 */ 
int m_ epollfd; 

/* 监 昕 socket*/ 

int m_listenfd; 

/* 子 进程 通过 m_stop 来 决定 是 否 停止 运行 */ 


int m_stop; 

/* 保 存 所 有 子 进程 的 描述 信息 */ 
process*m_sub_process; 

/* 进 程 池 静 态 实 例 */ 

static processpool<T>*m_ instance; 

}; 

template<typename T> 
processpool<T>*processpool<T>::m instance=NULL; 
/* 用 于 处 理 信 号 的 管道 ， 以 实现 统一 事件 源 。 后 面 称 之 为 信号 管道 */ 
static int sig pipefd[2]; 

static int setnonblocking(int fd) 

{ 

int old_option=fcntl1l(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK.; 
fcntili(fd,F_SETFL,new_ option); 

return old_option; 

} 

static void addfd(int epollfd,int fd) 

{ 

epoll_event event; 

event.data.fd=fd; 

event .events=EPOLLIN|EPOLLET; 

epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 
setnonblocking(fd); 


} 
/* 从 epo1l1fd 标 识 的 epo1l1 内 核 事件 表 中 删除 fd 上 的 所 有 注册 事件 */ 
static void removefd(int epollfd,int fd) 


epoll ctl(epollfd,EPOLL CTL_DEL, fd, 0); 
close(fd); 

} 

static void sig handler(int sig) 

{ 

int save_errno=errno; 

int msg=sig; 

send(sig pipefd[1], (char*)&msg,1,0); 
errno=save_errno; 


static void addsig(int sig,void(handler)(int),bool restart=true) 


{ 


struct sigaction sa; 
memset(&sa,'\0',sizeof(sa)); 
sa.sa_handler=handler; 
if(restart) 


sa.sa_flags|=SA_ RESTART; 


sigfillset(&sa.sa mask); 


assert(sigaction(sig,&sa,NULL)!=-1); 

} 

/* 进 程 池 构造 画 数 。 参 数 1istenfd 是 监听 socket， 它 必须 在 创建 进程 池 之 前 被 创建 ， 
否则 子 进程 无 法 直接 引用 它 。 参 数 process_number 指 定 进程 池 中 子 进程 的 数量 */ 

template<typename T> 

processpool<T>::processpool(int listenfd,int process_number) 

:m_listenfd(listenfd),m process_ number(process number),m_ idx(-1) 


m_stop(false) 


assert((process_ number >0)&&(process number< 
=MAX_PROCESS_NUMBER ) ); 

m_sub_process=new process[process_number] ; 

assert(m sub_process); 

/* 创 建 process_number 个 子 进程 ， 并 建立 它们 和 父 进程 之 间 的 管 ; 

for(int i=0;i<process_number;++i) 

{ 

int 
ret=socketpair(PF_UNIX,SOCK_ STREAM,O0O,m sub_process[i].m pipefd); 

assert(ret==0); 

m_sub_process[i].m_ pid=fork(); 

assert(m sub_process[i].m pid>=0); 

if(m_sub_process[i].m pid>0) 

{ 

close(m sub_process[i].m pipefd[1]); 

continue; 


} 


else 

{ 

close(m sub_process[i].m pipefd[0]); 
m_idx=i; 

break; 

} 

} 


} 

/* 统 一 事件 产 */ 

template<typename T> 

void processpool<T>::setup_sig pipe() 


这 
* 
DS 


{ 

/创建 epo11 事 件 监听 表 和 信和 号 管道 */ 
m_epollfd=epoll_create(5); 
assert(m epollfd!=-1); 

int ret=socketpair(PF_UNIX,SOCK_STREAM,0,sig_pipefd); 
assert(ret!=-1); 

setnonblocking(sig pipefd[1]); 

addfd(m_epollfd, sig_pipefd[0]); 

/* 设 置信 号 处 理 函 数 */ 

addsig(SIGCHLD, sig_handler); 


addsig(SIGTERM, sig_handler); 
addsig(SIGINT, sig_handler ) ; 


addsig(SIGPIPE,SIG_IGN ) ; 
} 


/* 父 进程 中 m_idx 值 为 -1， 子 i 


程 中 m_idx 值 大 于 等 于 0， 我 们 据 此 判断 接 


的 是 父 进程 代码 还 是 子 进程 代码 */ 


功 ， 


template<typename T> 


void processpool<T>::run() 


if(m idx!=-1) 


{ 
run_child( ); 
return; 


} 


run_parent(); 


} 


template<typename T> 


void processpool<T>::run_child() 


{ 
setup_sig_ pipe 
/* 每 个 子 进程 都 通 


(); 


其 在 i 


人 SR 


至 池 中 的 序号 值 m_idx 找 到 与 父 进程 通信 的 管道 
int pipefd=m_sub_process[m idx].m pipefd[1]; 


=: 


下 来 要 运行 


*/ 


/* 子 进程 需要 监听 管道 文件 描述 符 pipefd， 因 为 父 进程 将 通过 它 来 通知 子 进 程 accep 


接 */ 
addfd(m_epollfd, pipefd); 


epoll event events[MAX_ EVENT_NUMBER]; 
T*users=new T[USER_PER_PROCESS]; 


assert(users); 
int number=0; 
int ret=-1; 
while('!'m stop) 
{ 


number=epoll wait(m epollfd,events,MAX_ EVENT_NUMBER, -1); 


if((number <0)&&(errno! 
{ 


=EINTR)) 


printf("epoll failure\n"); 


break; 


} 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 
if((sockfd==pipefd)&& (events[i].events&EPOLLIN)) 


{ 


int client=0; 


/* 从 父 、 子 进程 之 间 的 管道 读 取 数据 


则 表示 有 新 客户 连接 到 来 */ 


开 


ret=recv(sockfd, (char*)&client, sizeof (client),0); 
if(((ret<0)&&(errno!=EAGAIN))||ret==0) 


并 将 结果 保存 在 变量 client 中 。 如 果 i 


t 


{ 


continue; 


} 


else 

{ 

struct sockaddr_in client address; 

socklen t client_addrlength=sizeof(client_address ) ; 

int connfd=accept(m_1listenfd, (struct sockaddr*)&client address, 
&client_addrlength ) ， 

if(connfd<0) 

L 

printf("errno is:%d\n",errno); 

continue; 

} 

addfd(m_epollfd,connfd); 

/* 模 板 类 T 必 须 实现 init 方 法 ， 以 初始 化 一 个 客户 连接 。 我 们 直接 使 用 connfd 来 索引 
逻辑 处 理 对 象 (T 类 型 的 对 象 ; ， 以 提高 程序 效率 */ 

users[connfd].init(m epollfd,connfd,client_address); 

} 

} 

/* 下 面 处 理子 进程 接收 到 的 信号 */ 

else if((sockfd==sig pipefd[0])&&(events[i].events&EPOLLIN)) 

{ 

int sig; 

char Signals[1024] ; 

ret=recv(sig pipefd[0],signals,sizeof(signals),o0); 

if(ret<=0) 

‘ 


continue; 


} 


else 


{ 


for(int i=0;i<ret;++i) 
{ 


switch(signals[i]) 


case SIGCHLD: 

{ 

pid_t pid; 

int stat; 

while( (pid=waitpid(-1,&stat,WwNOHANG))>0) 


continue; 


} 


break; 

} 

case SIGTERM : 
case SIGINT: 


{ 
m_stop=true; 
break; 

} 

default: 


{ 


break; 


+ 


果 是 其 他 可 读数 据 ， 那 么 必然 是 客户 请 求 到 来 。 调 用 逻辑 处 理 对 象 的 process 方 法 


bc 
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lse if(events[i].events&EPOLLIN) 


rm 4?) 


users[sockfd].process(); 


else 


{ 
continue; 
} 

} 

} 


delete[ lusers; 

users=NULL; 

close(pipefd); 

//close(m_1listenfd);/* 我 们 将 这 句 话 注释 掉 ， 以 提醒 读者 ， 应 该 由 m_listenfd 
的 创建 者 来 关闭 这 个 文件 描述 符 ( 见 后 文 ) ， 即 所 谓 的 “对 象 《比如 一 个 文件 描述 符 ， 又 或 者 
一 段 堆 内 存 ) 由 哪个 函数 创建 ， 就 应 该 由 哪个 函数 销毁 “*/ 

close(m epollfd); 

} 

template<typename T> 

void processpool<T>::run_parent() 

{ 

setup_sig_ pipe(); 

/* 父 进程 监听 m_listenfd*/ 

addfd(m_epollfd,m_ listenfd); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int sub_process_ counter=0; 

int new_conn=1; 

int number=0; 

int ret=-1; 

while('!'m stop) 

{ 

number=epoll wait(m epollfd,events,MAX_EVENT_NUMBER, -1); 

if((number <0)&&(errno!=EINTR)) 


{ 


printf("epoll failure\n"); 
break; 


} 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 
if(sockfd==m_listenfd) 


{ 

/* 如 果 有 新 连接 到 来 ， 就 采用 Round Robin 方 式 将 其 分 配给 一 个 子 进 程 处 理 */ 
int i=sub_process counter; 

do 


if(m_sub_process[i].m pid!=-1) 
{ 


break; 


} 


i=(i+1)%m process_ number; 


while(i!=sub_process_counter); 
if(m_sub_process[i].m pid==-1) 

{ 

m_stop=true; 

break; 

} 

sub_process_counter=(i+1)%m process_number; 
send(m_sub_process[i].m pipefd[0], 

(char*)&new conn,sizeof(new_ conn),o); 
printf("send request to child%d\n",i); 

} 

/* 下 面 处 理 父 进程 接收 到 的 信号 */ 

else if((sockfd==sig pipefd[0])&&(events[i].events&EPOLLIN)) 
{ 

int sig; 

char signals[1024]; 

ret=recv(sig pipefd[0],signals,sizeof(signals),o0); 
if(ret<=0) 

{ 


continue; 


} 


else 


{ 

for(int i=0;i<ret;++i) 
{ 

switch(signals[i]) 

{ 

case SIGCHLD: 


1 
pid_t pid; 


Int Stat ， 
while((pid=waitpid(-1,Sstat,WNOHANG) ) >0) 
{ 


for(int i=0;i<m process_ number;++i) 


{ 

/* 如 果 进 程 池 中 第 i 个 子 进程 退出 了 ， 则 主 进程 关闭 相应 的 通信 管道 ， 并 设置 相应 的 
m_pid 为 -1， 以 标记 该 子 进程 已 经 退出 */ 

if(m_sub_process[i].m pid==pid) 


printf("child%d join\n",1); 

close(m sub_process[i].m pipefd[0]); 
m_sub_process[i].m pid=-1; 

} 

} 


} 

/* 如 果 所 有 子 进程 都 已 经 退出 了 ， 则 父 进 程 也 退出 */ 
m_stop=true; 

for(int i=0;i<m process_ number;++i) 

{ 


if(m_sub_process[i].m pid!=-1) 


m_stop=false; 
} 
} 
break; 
} 
case SIGTERM: 
case SIGINT: 
{ 
作 如 有 果 父 进程 接收 到 终止 信号 ， 那 么 就 杀 死 所 有 子 进程 ， 并 等 待 它 们 全 部 结束 。 当 然 ， 
通知 子 进 程 结束 更 好 的 方法 是 向 父 、 子 进程 之 间 的 通信 管道 发 送 特殊 数据 ， 读 者 不 妨 自 己 实 
现 之 */ 
printf("kill all the clild now\n"); 
for(int i=0;i<m process_ number;++i) 
{ 
int pid=m_sub_process[i].m pid; 
if(pid!=-1) 


{ 
kill(pid,SIGTERM); 
} 

} 

break; 

} 
default: 
{ 

break; 

} 

} 


ontinue; 


OOOMO OY 
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//close(m_1listenfd);/* 由 创建 者 关闭 这 个 文件 描述 符 ( 见 后 文 ) */ 
close(m epollfd); 


#endif 


15.4 用 进程 池 实 现 的 催 单 CGI 服务 大 


回忆 6.2 共 ， 我 们 曾 实现 过 一 个 非常 简单 的 CGI 服务 硼 。 下 面 我 们 
将 利用 前 面 介绍 的 进程 池 来 重新 实现 一 个 并 发 的 CGI 服务 器 ， 如 代码 
清单 15-2 所 示 。 


代码 清单 15-2 ”用 进程 池 实现 的 并 发 CGI 服务 大 


#include<sys/types.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 

#include<assert.h> 

#include<stdio.h> 

#include<unistd.h> 

#include<errno.h> 

#include<string.h> 

#include<fcntl.h> 

#include<stdlib.h> 

#include<sys/epoll.h> 

#include<signal.h> 

#include<sys/wait.h> 

#include<sys/stat.h> 
#include"processpool.h"/* 引 用 上 一 节 介 绍 的 进程 池 */ 
/* 用 于 处 理 客户 CGI 请 求 的 类 ， 它 可 以 作为 processpoo1 类 的 模板 参数 */ 
class cgi_conn 


{ 

public: 

cgi_conn(){} 

~cgi_conn( ){} 

/* 初 始 化 客户 连接 ， 清 空 读 缓冲 区 */ 

void init(int epollfd,int sockfd,const sockaddr_in&client_addr) 


{ 

m_epollfd=epollfd; 
m_sockfd=sockfd; 
m_address=client_addr; 
memset(m_ buf,'\0',BUFFER_ SIZE); 


m_read_idx=0; 


} 


void process() 


int idx=0; 
int ret=-1 


/* 循 环 读 取 和 分 析 客 户 数据 *7 


while(true) 


{ 


idx=m_read_idx; 


ret=recv(m_sockfd, m_buf+idx,BUFFER_SIZE-1-idx,0); 


/* 如 果 读 操作 发 生 错误 , 则 关闭 客户 连接 。 但 如 果 是 暂时 无 数 


if(ret<0) 


{ 
if(errno!=EAGAIN) 


removefd(m epollfd,m_ sockfd); 


} 


break; 


} 
/* 如 果 对 方 关闭 连接 ， 则 服务 


else if(ret==0) 


removefd(m epollfd,m_ sockfd); 


break; 


} 


else 


{ 


m_read idx+=ret; 


器 也 关闭 连接 */ 


printf ("user content is:%s\n",m buf); 
/* 如 果 遇 到 字符 ^r\n”， 则 开始 处 理 客户 请 求 */ 


for(;idx<m_read_idx; 


++idx) 


可 读 ， 则 退出 循环 */ 


{ 
if( (idx>=1)&&(m buf[idx-1]=='\r')&&(m buf[idx]=='\n')) 


{ 


break; 


} 


} 
/* 如 果 没 有 过 到 字符 ^^r\n”， 则 需要 读 取 


if(idx==m_read_idx) 


{ 


continue; 


} 
m_buf[idx-1]="'\0"'; 


char*file _ name=m_buf; 


/* 判 断 客户 要 运行 的 C6I 程 


序 是 否 存 在 


*/ 


if(access(file name,F_OK)==-1) 


{ 


多 客户 数 # 


居 */ 


removefd(m_epollfd,m_sockfd ) ; 
break; 


} 

/创建 子 进程 来 执行 CGI 程序 */ 
ret=fork(); 

if(ret==-1) 


removefd(m epollfd,m_ sockfd); 
break; 


else if(ret>0) 

{ 

/* 父 进程 只 需 关 闭 连 接 */ 
removefd(m epollfd,m_ sockfd); 
break; 


} 


else 

t 

/* 子 进程 将 标准 输出 定向 到 m_sockfd， 并 执行 CGI 程序 */ 
close(STDOUT_FILENO); 
dup(m_sockfd); 
execl(m_ buf,m_ buf,0); 
exit(0); 

} 

} 

} 

} 


private: 

/* 读 缓冲 区 的 大 小 */ 

static const int BUFFER_ SIZE=1024; 
static int m_epolilfd; 

int m_sockfd; 

sockaddr_in m_address; 

char m_buf[BUFFER_SIZE]; 
/* 标 记 读 缓 冲 中 已 经 读 入 的 客户 数据 的 最 后 一 个 字 节 的 下 一 个 位 置 */ 
int m_read_ idx; 

}; 

int cgi conn::m epollfd=-1; 
/* 主 图 数 */ 

int main(int argc,char*argv[]) 


if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 


int listenfd=socket (PF_INET,SOCK_ STREAM,0); 

assert(listenfd>=0); 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address ) ) ; 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 

assert(ret!=-1); 

ret=listen(listenfd,5); 

assert(ret!=-1); 

processpool<cgi conn>*pool=processpool<cgi conn 
>::create(listenfd); 

if(pool) 

{ 


pool->run(); 
delete pool; 


} 

close(1istenfd) ;/* 正 如 前 文 提 到 的 ，main 函 数 创建 了 文件 描述 符 1istenfd， 那 
么 就 由 它 亲 自 关 闭 之 */ 

return 90; 


} 


15.5 半 同 步 / 半 反 应 堆 线 程 池 实 现 


本 太 我 们 实现 一 个 基于 图 8-10 所 示 的 半 同 步 / 半 反 应 堆 并 发 模式 的 
线程 池 ， 如 代码 清单 15-3 所 示 。 相 比 代码 清单 15-1 所 示 的 进程 池 实 
现 ， 该 线程 池 的 通用 性 要 高 得 多 ， 因 为 它 使 用 一 个 工作 队列 完全 解除 
了 主线 程 和 工作 线程 的 耦合 关系 : 主线 程 往 工 作 队 列 中 插入 任务 ， 工 
作 线 程 通过 竞争 来 取得 任务 并 执行 它 。 不 过 ， 如 果 要 将 该 线程 池 应 用 
到 实际 服务 器 程 序 中 ， 那 么 我 们 必须 保证 所 有 客户 请 求 都 是 无 状态 
的 ， 因 为 同一 个 连接 上 的 不 同 请 求 可 能 会 由 不 同 的 线程 处 理 。 


代码 请 单 15-3” 半 同步 / 半 反 应 堆 线程 池 实 现 


//filename:threadpool.h 

#ifndef THREADPOOL_H 

#define THREADPOOL_H 

#include<1ist> 

#include<cstdio> 

#include<exception> 

#include<pthread.h> 

/* 引 用 第 14 章 介绍 的 线程 同步 机 制 的 包装 类 */ 

#include"locker.h" 

/* 线 程 池 类 ， 将 它 定义 为 模板 类 是 为 了 代码 复 用 。 模 板 参 数 T 是 任务 类 */ 

template<typename T> 

class threadpool 

{ 

public: 

/* 参 数 thread_number 是 线程 池 中 线程 的 数量 ，max_requests 是 请 求 队列 中 最 多 允 
F 的 、 等 待 处 理 的 请 求 的 数量 */ 

threadpool(int thread number=8,int max_requests=10000); 

~threadpool( ); 

/* 往 请 求 队列 中 添加 任务 */ 

bool append(T*request); 


式 


private: 

/* 工 作 线程 运行 的 函数 ， 它 不 断 从 工作 队列 中 取出 任务 并 执行 之 */ 

static void*worker(void*arg ) ; 

void run(); 

private: 

int m_thread_number;/* 线 程 池 中 的 线程 数 */ 

int m_max_requests;/* 请 求 队列 中 介 许 的 最 大 请 求 数 */ 

pthread_t*m_threads;/* 描 述 线程 池 的 数组 ， 其 大 小 为 m_thread_number*/ 

std: :list<T*>>m_workqueue;/* 请 求 队 列 */ 

locker m_queuelocker;/* 保 护 请 求 队列 的 互 不 锁 */ 

sem m_queuestat;/* 是 否 有 任务 需要 处 理 */ 

bool m_stop;/* 是 否 结束 线程 */ 

}; 

template<typename T> 

threadpool<T>::threadpool(int thread_ number,int max_requests ) : 

m_thread _ number(thread number),m max_requests(max_requests),m_ st 
op(false),m threads(NULL) 


if((thread number<=0)||(max_requests<=0)) 


{ 


throw std: :exception( ) ; 


m_threads=new pthread_t[m thread number]; 
if(!'m_ threads) 
{ 


throw std::exception(); 


} 

/* 创 建 thread_number 个 线程 ， 并 将 它们 都 设置 为 脱离 线程 */ 
for(int i=0;i<thread number;++i) 

{ 

printf("create the%dth thread\n",i); 

if(pthread create(m_ threads+i,NULL,worker, this)!=0) 
{ 

delete[]m threads; 

throw std::exception(); 


} 
if(pthread_detach(m_threads[i])) 
{ 

delete[]jm_threads ; 

throw std: :exception( ) ; 

} 

} 

} 


template<typename T> 
threadpool<T>::~threadpool() 
{ 

delete[]m threads; 
m_stop=true; 


} 


template<typename T> 
bool threadpool<T>::append(T*request) 


{ 

/* 操 作 工 作 队 列 时 一 定 要 加 锁 ， 因 为 它 被 所 有 线程 共享 */ 
m_queuelocker .LocKk( ); 

if(m workqueue.size()>m max_requests) 
{ 

m_queuelocker .unlock(); 

return false; 

} 

m_workqueue.push_back(request); 
m_queuelocker .unlock(); 
m_queuestat.post(); 

return true; 

} 

template<typename T> 
void*threadpool<T>::worker(void*arg) 
{ 

threadpool*pool=(threadpool* )arg; 
pool->run(); 

return pool; 

} 

template<typename T> 

void threadpool<T>::run() 


while( !'m_stop) 

{ 

m_queuestat .wait(); 
m_queuelocker .1lock( ); 
If(m_workdqueue .empty() ) 
{ 

m_queuelocker .unlock(); 
continue; 

} 

T*request=m workqueue.front(); 
m_workqueue.pop_front(); 
m_queuelocker .unlock(); 
if(!request) 

{ 


continue; 


} 
request->process(); 
} 


} 
#endif 


值得 一 提 的 是 ， 在 C++ 程序 中 使 用 pthread_create 函 数 时 ， 该 函数 
的 第 3 个 参数 必须 指 癌 一 个 静态 函数 。 而 要 在 一 个 静态 范 数 中 使 用 类 的 
动态 成 员 (包括 成 员 画 数 和 成 员 变 量 ) ， 则 只 能 通过 如 下 两 种 方式 来 
实现 : 


口 通过 类 的 静态 对 象 来 调用 。 比 如 单 体 模式 中 ， 静 态 函 数 可 以 通 
过 类 的 全 局 唯一 实例 来 访问 动态 成 员 函 数 。 


口 将 类 的 对 象 作为 参数 传递 给 该 静态 玉 数 ， 然 后 在 静态 函数 中 引 
用 这 个 对 象 ， 并 调用 其 动态 方法 。 


代码 清单 15-3 使 用 的 是 第 2 种 方式 : 将 线程 参数 设置 为 this 指 针 ， 
然后 在 worker 函 数 中 获取 该 指针 并 调用 其 动态 方法 run 。 


15.6 ”用 线程 池 实 现 的 便 持 Web 上 服务 句 


在 8.6 节 中 ， 我 们 曾 使 用 有 限 状 态 机 实现 过 一 个 非常 简单 的 解析 
HTTP 请 求 的 服务 器 。 下 面 我 们 将 利用 前 面 介 绍 的 线程 池 来 重新 实现 一 
个 并 发 的 Web 服 务 器 。 


15.6.1 ”http_conn 类 


首先 ， 我 们 需要 准备 线程 池 的 模板 参数 类 ， 用 以 封装 对 逻辑 任务 
的 处 理 。 这 个 类 是 http_conn， 代 码 清单 15-4 是 其 头 文件 
(http_conn.h) ， 代 人 码 清单 15-5 是 其 实现 文件 (http_conn.cpp) 。 


代码 清单 15-4 http_conn.h 文 件 


#ifndef HTTPCONNECTION_H 
#define HTTPCONNECTION_H 
#include<unistd.h> 
#include<signal.h> 
#include<sys/types.h> 
#include<sys/epoll.h> 
#include<fcntl.h> 
#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<assert.h> 
#include<sys/stat.h> 
#include<string.h> 
#include<pthread.h> 
#include<stdio.h> 
#include<stdlib.h> 
#include<sys/mman.h> 


#include<stdarg.h> 

#include<errno.h> 

#include"locker.h" 

class http_conn 

{ 

public: 

/* 文 件 名 的 最 大 长 度 */ 

static const int FILENAME_LEN=200 ， 

/* 读 缓冲 区 的 大 小 */ 

static const int READ_ BUFFER SIZE=2048; 

/* 写 缓冲 区 的 大 小 */ 

static const int WRITE_ BUFFER_ SIZE=1024; 

A/*HTTP 请 求 方法 ， 但 我 们 仪 支持 GET*/ 

enum 
METHOD{GET=0, POST, HEAD, PUT, DELETE, TRACE, OPTIONS, CONNECT, PATCH}; 

/* 解 析 客户 请 求 时 ， 主 状态 机 所 处 的 状态 (回忆 第 8 章 ) */ 

enum 
CHECK_STATE{CHECK_STATE_ REQUESTLINE=0, CHECK_STATE_HEADER, CHECK_STAT 
E_CONTENT}; 

/* 服 务 器 处 理 HTTP 请 求 的 可 能 结果 */ 

enum 
HTTP_CODE{NO_REQUEST, GET_REQUEST, BAD_REQUEST, NO_RESOURCE, FORBIDDEN__ 
REQUEST, FILE_REQUEST, INTERNAL_ERROR, CLOSED_ CONNECTION}; 

/* 行 的 读 取 状 态 */ 

enum LINE_ STATUS{LINE OK=0,LINE_ BAD,LINE OPEN}; 

public: 

http_conn(){} 

~http_conn( ){} 

public: 

/* 初 始 化 新 接受 的 连接 */ 

void init(int sockfd,const sockaddr_in&addr); 

/* 关 闭 连接 */ 

void close conn(bool real close=true); 

/* 人 处 理 客户 请 求 */ 

void process(); 

/* 非 阻塞 读 操作 */ 

bool read(); 

/* 非 阻塞 写 操作 */ 

bool write()， 

private: 

/* 初 始 化 连接 */ 

void init(); 

/* 解 析 HTTP 请 求 */ 

HTTP_CODE process_read(); 

/* 填 充 HTTP 应 答 */ 

bool process write(HTTP_CODE ret); 

/* 下 面 这 一 组 函数 被 process_read 调 用 以 分 析 HTTP 请 求 */ 

HTTP_CODE parse_request_ line(char*text); 


HTTP_CODE parse_ headers(char*text); 
HTTP_CODE parse content(char*text); 
HTTP_CODE do_request(); 
char*get_line(){return m read buf+m_start_line;} 
LINE_STATUS parse_ line(); 
/x* 下 面 这 一 组 函数 被 process_write 调 用 以 填充 HTTP 应 答 */ 


void unmap() 


F 


bool add_response(const char*format,...); 

bool add_content(const char*content); 

bool add_status_ line(int status,const char*title); 
bool add_headers(int content_length); 

bool add_content_length(int content_length); 

bool add_linger(); 
bool add_blank_line(); 


public: 


/* 所 有 socket 上 的 事件 都 被 注册 到 同一 个 epo11 内 核 事 件 表 中 ， 所 以 将 epo1l1 文 件 描 


述 符 设置 为 静态 的 */ 


static int m_epollfd; 
/* 统 计 用 户 数量 */ 
static int m user_count; 


private: 


/* 该 HTTP 连 接 的 socket 和 对 方 的 socket 地 址 */ 


int m_ sockfd 


了 


sockaddr_in m_ address ， 


/* 读 缓冲 区 */ 


char m_read_buf[READ_ BUFFER_SIZE]; 


/* 标 识 读 缓冲 中 


int m_read_ idx; 


已 经 
ed 


读 入 的 客户 数 


当前 正在 分 忆 


int m_checked_idx; 


* 当 前 正在 解析 


/* 写 缓冲 区 */ 


必 的 最 后 一 个 字 节 的 下 一 个 位 置 */ 


i 的 字符 在 读 缓冲 区 中 的 位 置 */ 


的 行 的 起 始 位 置 */ 


Int m_start_line; 


char m_write_buf[WRITE_BUFFER_SIZE] ， 
/* 写 缓冲 区 中 待 发 送 的 字 节 数 */ 
int m write_ idx; 

/* 主 状态 机 当前 所 处 的 状态 */ 
CHECK_STATE m check_state,; 


/* 请 求 方 法 */ 


METHOD m_method ， 


/* 客 户 请 求 的 目 
根 目录 */ 


char m_real 


char*m_uril; 
A/*HTTP 协 议 版 


/* 主 机 名 */ 


标 文件 的 完整 路 径 ， 


其 内 容 等 于 doc_root+m_uUr1l， 


_file[FILENAME_LEN]; 
/* 客 户 请 求 的 目标 文件 的 文件 名 */ 


号 ， 我 们 仅 支 持 HTTP/1.1*/ 
char*m_version; 


doc_root 是 网 站 


char*m_host; 

/*HTTP 请 求 的 消息 体 的 长 度 */ 

int m_ content_Jlength 

/*HTTP 请 求 是 否 要 求 保持 连接 */ 

bool m linger; 

/* 客 户 请 求 的 目标 文件 被 mnmap 到 内 存 中 的 起 始 位 置 */ 

char*m_file _address ， 

/目标 文件 的 状态 。 通 过 它 我 们 可 以 判断 文件 
取 文 件 大 小 等 信息 */ 

struct stat m file stat 

/* 我 们 将 采用 writev 来 执行 写 操 作 ， 所 以 定义 下 面 两 个 成 员 ， 其 中 m_iv_count 表 示 
被 写 内 存 块 的 数量 */ 

struct iovec m_iv[2]， 

int m_ iv_count ， 

}; 

#endif 


上 


是 否 存 在 、 是 否 为 目录 、 是 否 可 读 ， 并 获 


代码 清单 15-5 ”http_conn.cpp 文 件 


#include"http_conn.h" 

/* 定 义 HTTP 响 应 的 一 些 状 态 信息 */ 

const char*ok 200 title="OK'"， 

const char*error_400_ title="Bad Request"; 

const char*error_400_form="Your request has bad syntax or is 
inherently impossible to satisfy.\n"; 

const char*error_403_ title="Forbidden"; 

const char*error_403 form="You do not have permission to get 
file from this server.\n"; 

const char*error_ 404 title="Not Found"; 

const char*error_404_ form="The requested file was not found on 
this Server.NXn'"， 

const char*error 500 title="Internal Error"; 

const char*error_500_form="There was an unusual problem serving 
the requested file.\n"; 

/* 网 站 的 根 目录 */ 

const char*doc_root="/var/www/html"; 

int setnonblocking(int fd) 

{ 

int old_option=fcntl1l(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 

fcntili(fd,F_SETFL,new_option); 

return old_option; 


} 
void addfd(int epollfd,int fd,bool one_shot ) 
{ 


epoll_ event event; 
event.data.fd=fd; 


event .events=EPOLLIN|EPOLLET|EPOLLRDHUP; 


if(one_shot) 


{ 
event ,events |=EPOLLONESHOT ; 


} 
epoll ctl(epollfd,EPOLL CTL_ADD, fd, &event); 


setnonblocking(fd); 
} 


void removefd(int epollfd,int fd) 


于 
epoll ctl(epollfd,EPOLL CTL_DEL, fd, 0); 


close(fd); 


void modfd(int epollfd,int fd,int ev) 


{ 


epoll event event 
event.data.fd=fd; 


event .events=ev |EPOLLET |EPOLLONESHOT|EPOLLRDHUP; 


epoll ctl(epollfd,EPOLL CTL_MOD, fd, &event); 


int http_conn::m_ user_count=0; 
int http_conn::m epollfd=-1; 


void http_conn::close _ conn(bool real close) 


{ 
if(real close&&(m sockfd!=-1)) 


removefd(m epollfd,m_ sockfd); 
m_sockfd=-1; 


m_user_count--;/* 关 闭 一 个 连接 时 ， 将 客户 总 量 减 1*/ 


} 
} 


void http_conn::init(int sockfd,const sockaddr_in&addr) 


{ 
m_sockfd=sockfd; 


m_address=addr; 
/* 如 下 两 行 是 为 了 避免 TIME_WAIT 状 态 ， 
int reuse=1; 


仅 


于 调试 ， 实 际 使 


setsockopt(m_sockfd,SOL_ SOCKET,SO_REUSEADDR, &&% 


reuse, sizeof (reuse)); 
addfd(m_epollfd, sockfd, true); 
m_user_count++; 
init(); 
} 
void http_conn::init() 


{ 


m_check_state=CHECK_STATE_REQUESTLINE ; 


时 应 该 去 掉 */ 


m_linger=false; 

m_method=GET， 

m_url=0; 

m_version=0; 

m_content_length=0; 

m_host=0; 

m_start_line=0; 

m_checked_idx=0; 

m_read_ idx=0; 

m_write idx=0; 
memset(m_read_buf, '\0',READ_ BUFFER_ SIZE); 
memset(m write_ buf,'\0',WRITE_ BUFFER_SIZE); 
memset(m real file,'\0',FILENAME_ LEN); 


} 

/* 从 状态 机 ， 其 分 析 请 参考 8.6 节 ， 这 里 不 再 恪 述 */ 
http_conn: :LINE_STATUS http_conn: :parse_line() 
{ 

char temp; 

for(;m_ checked _ idx<m_read_ idx;++m checked_idx) 
{ 

temp=m_read_buf[m_checked_idx]; 

if(temp=="'\r') 


if((m_ checked_ idx+1)==m_read_idx) 


{ 
return LINE_OPEN; 


else if(m_read buf[m_checked_ idx+1]=="'\n') 


m_read_ buf[m_checked _ idx++]="'\0"'; 
m_read_ buf[m_checked_ idx++]="'\0"'; 
return LINE OK; 


} 
return LINE_BAD; 


else if(temp=="'\n') 
{ 
if((m checked idx>1)&&(m read buf[m checked idx-1]=="'\r')) 


m_read_ buf[m_checked _ idx-1]="'\0'; 
m_read_ buf[m_checked idx++]="'\0"'; 
return LINE OK,; 

} 

return LINE_BAD; 

} 

} 

return LINE_OPEN ， 


} 


/* 循 环 读 取 客户 数据 ， 直 到 无 数据 可 读 或 者 对 方 关闭 连 授 */ 
bool http_conn::read() 


if(m_read_idx>=READ_BUFFER_SIZE) 


return false; 

} 

int bytes_read=0; 

while(true) 

{ 

bytes_read=recv(m_ sockfd,m_read_buf+m_read_idx,READ_ BUFFER_SIZE- 
m_read_idx,0); 

if(bytes_read==-1) 

‘ 

if(errno==EAGAIN| |errno==EWOULDBLOCK) 

{ 


break; 


} 


return false; 


else if(bytes_read==0) 
{ 


return false; 


} 


m_read_idx+=bytes_read; 


} 


return true; 


} 
/* 解 析 HTTP 请 求 行 ， 获 得 请 求 方法 、 目 标 URL， 以 及 HTTP 版 本 号 */ 
http_conn: :HTTP_CODE http_conn::parse request_ line(char*text) 


{ 
m_url=strpbrk(text,"\t"); 
if(!m_ur]) 

{ 

return BAD_REQUEST,; 

} 


*m_url++=" \O'，; 
char*method=text; 
if(strcasecmp(method, "GET")==0) 
{ 

m_method=GET; 

} 

else 

{ 

return BAD_REQUEST,; 

} 

m_url+=strspn(m_url,"\t"); 
m_version=strpbrk(m_url,"\t"); 


if(!m version) 

{ 

return BAD_REQUEST,; 

} 

*m_version++="'\QO'; 
m_version+=strspn(m_version,"\t"); 
if(strcasecmp(m_version, "HTTP/1.1")!=0) 
{ 

return BAD_REQUEST,; 

} 

if(strncasecmp(m_url, "http://",7)==0) 
{ 

m_url+=7; 

m_url=strchr(m_url,'/'); 


} 
if(!m_ url||lm_urli[0]!='/"') 


return BAD_REQUEST ， 


m_check_state=CHECK_STATE_HEADER; 


return NO_REQUEST,; 


} 
/* 解 析 HTTP 请 求 的 一 个 头 部 信息 */ 
http_conn: :HTTP_CODE http_conn: :parse_headers(char*text ) 


{ 
/* 遇 到 空 行 ， 表 示 头 部 字段 解析 完毕 */ 
if(text[0]=="'\0') 


{ 

/* 如 果 HTTP 请 求 有 消息 体 ， 则 还 需要 读 取 m_content_length 字 节 的 消息 体 ， 状 态 机 
转移 到 CHECK_STATE_CONTENT 状 态 */ 

if(m_content_length'!=0) 

{ 

m_check_state=CHECK_STATE_CONTENT ; 

return NO_REQUEST ， 

/否则 说 明 我 们 已 经 得 到 了 一 个 完整 的 HTTP 请 求 */ 

return GET_REQUEST ， 


} 

/x* 处 理 Connection 头 部 字段 */ 

else if(strncasecmp(text,"Connection:",11)==0) 
{ 

teXxt+=11， 

text+=strspn(text,"\t"); 
if(strcasecmp(text,"keep-alive")==0) 
{ 

m_linger=true; 

} 

} 


/* 处 理 Content -Length 头 部 字段 */ 

else if(strncasecmp(text,"Content-Length:",15)==0) 
{ 

text+=15; 

text+=strspn(text,"\t"); 
m_content_length=atol(text); 


} 

/* 处 理 Host 头 部 字段 */ 

else if(strncasecmp(text,"Host:",5)==0) 
{ 

text+=5,; 

text+=strspn(text,"\t"); 

m_host=text， 

else 

{ 


printf("oop!unknow header%s\n", text); 


} 
return NO_REQUEST; 


} 
/* 我 们 没有 真正 解析 HTTP 请 求 的 消息 体 ， 只 是 判断 它 是 否 被 完整 地 读 入 了 */ 
http_conn: :HTTP_CODE http_conn::parse content(char*text) 


if(m_read idx>=(m_content_length+m_checked_idx)) 
{ 

text[m content_length]="'\0'，; 

return GET_REQUEST,; 


} 
return NO_REQUEST; 


} 

/* 主 状态 机 。 其 分 析 请 参考 8 .6 入 ， 这 里 不 再 长 述 */ 

http_conn: :HTTP_CODE http_conn::process_read() 

{ 

LINE_STATUS line_status=LINE_ OK; 

HTTP_CODE ret=NO_REQUEST,; 

char*text=0; 

while(((m check_state==CHECK_STATE_ CONTENT)&%& 
(line_status==LINE_OK)) 

[||1((line_status=parse_line())==LINE_OK)) 

{ 

text=get_line(); 

m_start_ line=m checked_idx; 

printf("got 1 http line:%s\n",text); 

switch(m check_state) 


{ 
case CHECK_STATE_ REQUESTLINE: 


{ 


ret=parse_request_line(text); 


疡 便 


‘ 


if(ret==BAD_REQUEST) 
{ 
return BAD_ REQUEST; 


} 


break; 


case CHECK_STATE_HEADER: 
{ 
ret=parse_headers(text); 
if(ret==BAD_REQUEST ) 

{ 

return BAD_REQUEST,; 


else if(ret==GET_ REQUEST) 
{ 


return do_request(); 


} 


break; 


} 
case CHECK_STATE_CONTENT: 


{ 

ret=parse_content (text); 
if(ret==GET_REQUEST) 

{ 

return do_request(); 

} 

line_status=LINE_ OPEN; 
break; 


} 
default: 


{ 
return INTERNAL_ERROR; 
} 
} 


} 
return NO_REQUEST; 


对 所 有 用 户 可 读 ， 且 不 是 目录 ， 则 使 
， 并 告诉 调用 者 获取 文件 成 功 */ 


jmmap 将 ] 


} 
/* 当 得 到 一 个 完整 、 正 确 的 HTTP 请 求 时 ， 我 们 就 分 析 目 标 文 件 的 属性 。 如 果 目 标 文人 


其 映 射 到 内 存 地 址 m_file_ address 


http_conn: :HTTP_CODE http_conn: :do_reduest'( ) 


{ 


strcpy(m_real file, doc_root); 


int len=strlen(doc_root); 


strncpy(m_real file+len,m url,FILENAME_ LEN-1len-1); 
if(stat(m real file,&m file stat)<0) 


{ 
return NO_RESOURCE; 


- 存 


if(!(m file_stat.st_modecS_IROTH) ) 
return FORBIDDEN_REQUEST ， 


if(S_ISDIR(m file_ stat.st_mode)) 


{ 
return BAD_ REQUEST; 


int fd=open(m_real_ file,O_ RDONLY); 
m_file address= 
(char* )mmap(o,m file_ stat.st_size,PROT_ READ,MAP_PRIVATE, fd, 0); 
close(fd); 
return FILE REQUEST,; 


} 

/* 对 内 存 映射 区 执行 nunmap 操 作 */ 

void http_conn: :unmap() 

{ 

if(m_ file address) 

{ 
munmap(m_file_ address,m file stat.st_ size); 
m_file address=0; 


} 


} 

/* 写 HTTP 响 应 */ 

bool http_conn: :write() 

{ 

int temp=0; 

int bytes_have_send=0; 

int bytes_ to_send=m write_idx; 
if(bytes_to_send==0) 


modfd(m_epollfd,m sockfd,EPOLLIN); 
init(); 
return true; 


} 

while(1) 

{ 
temp=writev(m_ sockfd,m_ iv,m iv count ) ， 
if(temp<=-1) 


{ 

/* 如 果 TCP 写 缓冲 没有 空间 ， 则 等 待 下 一 轮 EPOLLOUT 事 件 。 虽 然 在 此 期 间 ， 服 务 器 无 
法 立即 接收 到 同一 客户 的 下 一 个 请 求 ， 但 这 可 以 保证 连接 的 完整 性 */ 

if(errno==EAGAIN) 


modfd(m_epollfd,m sockfd,EPOLLOUT); 
return true; 


} 


Unmap ( ) 
return false; 


} 


bytes_to_send-=temp; 
bytes_have_send+=temp; 


if(bytes_to_send<=bytes_have_send) 


{ 
/* 发 送 HTTP 响 应 成 功 ， 根 据 HTTP 请 求 中 的 Connection 字 上段 3 


Un 


map(); 


if(m_linger) 


in 


modfd(m_ epollfd,m sockfd,EPOLLIN); 


it(); 


return true; 


} 


else 


modfd(m_ epollfd,m sockfd,EPOLLIN); 


return false; 


* 


TN 


if(m write_ idx>=WRITE_BUFFER_SIZE) 


{ 


往 写 缓 ; 
O 


中 写 入 待 发 送 的 数 和 


return false; 


} 


va_list arg_ list; 


va_start(arg_list,format); 


居 */ 


在 不 


o0l1 http_conn::add_response(const char*format,... 


和 立即 关闭 连接 */ 


int len=vsnprintf(m write buf+m write_idx,WRITE_ BUFFER_ SIZE-1- 
m write_ idx,format,arg_list); 


if(len>=(WRITE_BUFFER_SIZE-1-m write_idx)) 


return false; 


} 


m_write idx+=len; 
va_end(arg_list); 
return true; 


} 


bool http_conn::add_status_ line(int status,const char*title) 


{ 


return add_response("%s%d%s\r\n", "HTTP/1.1",status, title); 


} 


bool http_conn::add_headers(int content_len) 


{ 


add_content_length(content_len); 
add_linger(); 
add_blank_line(); 


bool http_conn::add_content_length(int content_len) 
{ 


return add_response("Content-Length:%d\r\n",content_len); 


} 
bool http_conn::add_linger() 


{ 
return add_response("Connection:%s\r\n", (m_linger==true)?"keep- 
alive":"close"); 


} 

bool http_conn::add_blank_line() 
{ 

return add_response("%s","\r\n"); 
} 


bool http_conn::add_content(const char*content) 


return add_response("%s",content); 


} 
/* 根 据 服 务 器 处 理 HTTP 请 求 的 结果 ， 决 定 返 回 给 客户 端的 内 容 */ 
bool http_conn::process write(HTTP_CODE ret) 


switch(ret) 

{ 

case INTERNAL_ERROR: 

{ 
add_status_line(500,error_500_ title); 
add_headers(strlen(error_500_ form)); 
if(!add content(error_500_form)) 

{ 


return false; 


} 


break; 


case BAD_ REQUEST: 

{ 
add_status_line(400,error_400_ title); 
add_headers(strlen(error_400_ form)); 
if(!add content(error_400_form)) 

{ 

return false; 

} 

break; 

} 

case NO_RESOURCE: 


{ 


add_status_line(404,error_404 title); 
add_headers(strlen(error_404 form)); 
if(!add content(error_404_form)) 


return false; 


} 


break; 


} 
case FORBIDDEN_ REQUEST: 


{ 
add_status_line(403,error_403 title); 
add_headers(strlen(error_403_ form)); 
if(!add content(error_403_form)) 

{ 


return false; 


} 


break; 


} 
case FILE_ REQUEST: 


add_status_line(200,0ok_200_ title); 
if(m_file_ stat.st_ size!=0) 


add_headers(m file_ stat.st_ size); 
m_iv[0].iov_base=m write_buf; 
m_iv[0].iov_len=m write_idx; 
m_iv[1].iov_base=m file_address; 
m_iv[1].iov_len=m file_ stat.st_ size; 
m_iv_count=2， 

return true; 


} 


else 

{ 

const char*ok_string="<html><body></body></html>"; 
add_headers(strlen(ok_string)); 

if(!'add content(ok_string)) 


return false; 


} 
} 
} 
default: 


{ 

return false; 

} 

} 

m_iv[0].iov_base=m write_buf; 
m_iv[0].iov_len=m write_ idx; 


m_iv_count=1， 
return true; 


} 
/* 由 线程 池 中 的 工作 线程 调用 ， 这 是 处 理 HTTP 请 求 的 入 口 画 数 */ 
void http_conn: :process( ) 


HTTP_CODE read_ret=process_read(); 
if(read_ret==NO_REQUEST) 


{ 
modfd(m_epollfd,m sockfd,EPOLLIN); 
return; 


} 
bool write_ret=process write(read ret); 
If(!write_ret) 


close_conn(); 


} 
modfd(m_epollfd,m sockfd,EPOLLOUT); 
} 


15.6.2 main 函数 


定义 好 任务 类 之 后 ，main 函 数 束 变 得 很 简单 了 ， 它 
读 写 ， 如 代码 清单 15-6 所 示 。 


| 


代码 清单 15-6 ”用 线程 池 实现 的 Web 服 务 如 


#include<sys/socket.h> 
#include<netinet/in.h> 
#include<arpa/inet.h> 
#include<stdio.h> 
#include<unistd.h> 
#include<errno.h> 
#include<string.h> 
#include<fcntl1.h> 
#include<stdlib.h> 
#include<cassert> 
#include<sys/epoll.h> 
#include"locker.h" 


#include"threadpool.h" 

#include"http_conn.h" 

#define MAX_FD 65536 

#define MAX_EVENT_NUMBER 10000 

extern int addfd(int epolilfd,int fd,bool one_shot ) ; 
extern int removefd(int epollfd,int fd); 

void addsig(int sig,void(handler)(int),bool restart=true) 
{ 

struct sigaction Sa 

memset(&sa,'\0',sizeof(sa)); 
sa.sa_handler=handler; 

if(restart) 


sa.sa_flags|=SA_RESTART; 


sigfillset(&%sa.sa mask); 
assert(sigaction(sig,&sa,NULL)!=-1); 
} 


void show_error(int connfd,const char*info) 


printf("%s",info); 
send(connfd, info, strlen(info),o0); 
close(connfd); 


} 


int main(int argc,char*argv[]) 
if(argc<=2) 


printf("usage:%s ip_address port_number\n",basename(argv[0])); 
return 1; 

} 

const char*ip=argv[1]; 

int port=atoi(argv[2]); 

/* 忽 略 STGPIPE 信 号 */ 

addsig(SIGPIPE, SIG_IGN); 

/* 创 建 线程 池 */ 
threadpool<http_conn>*pool=NULL; 
try 

{ 


pool=new threadpool<http_conn>,，; 


} 
catch(...) 


{ 


return 1; 


} 

/* 预 先 为 每 个 可 能 的 客户 连接 分 配 一 个 http_conn 对 象 */ 
http_conn*users=new http_conn[MAX_FD]; 
assert(users); 


int user_count=0; 

int listenfd=socket (PF_INET,SOCK_ STREAM,0); 
assert(listenfd>=0); 

struct linger tmp={1,0}; 

setsockopt(listenfd,SOL SOCKET,SO_LINGER, &tmp,sizeof (tmp)); 
int ret=0; 

struct sockaddr_in address; 
bzero(&address, sizeof (address)); 

address.sin family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 
address.sin_port=htons(port); 

ret=bind(listenfd, (struct sockaddr*)&address, sizeof(address)); 
assert(ret>=0); 

ret=listen(listenfd,5); 

assert(ret>=0); 

epoll event events[MAX_ EVENT_ NUMBER]; 

int epollfd=epoll create(5); 

assert(epollfd!=-1); 

addfd(epollfd,1listenfd, false); 
http_conn::m_epollfd=epollfd; 

while(true) 

{ 

int number=epoll] wait(epollfd,events,MAX_EVENT_NUMBER, -1); 
if((number <0)&&(errno!=EINTR)) 

{ 

printf("epoll failure\n"); 

break; 


} 


for(int i=0;i<number;i++) 


int sockfd=events[i].data.fd; 

if(sockfd==listenfd) 

{ 

struct sockaddr_in client address; 

socklen _t client addrlength=sizeof(client_address); 

int connfd=accept(listenfd, (struct Sockaddr*)& client_address, 
client_addrlength); 

if(connfd<0) 

{ 

printf("errno is:%d\n",errno); 

continue; 


if(http_conn::m user_count>=MAX_FD) 

{ 

show_error(connfd,"Internal server busy"); 
continue; 


} 
/* 初 始 化 客户 连接 */ 


users[connfd].init(connfd,client_address); 


else if(events[i].events& (EPOLLRDHUP |EPOLLHUP |EPOLLERR)) 


{ 
/* 如 果 有 异常 ， 直 接 关 闭 客 户 连 接 */ 
users[sockfd].close_conn(); 


else if(events[i].events&EPOLLIN) 

{ 

/* 根 据 读 的 结果 ， 决 定 是 将 任务 添加 到 线程 池 ， 还 是 关闭 连接 */ 
if(users[sockfd].read()) 

{ 


pool->append(users+sockfd); 


} 


else 


users[sockfd].close_conn(); 


} 


} 
else if(events[i].events&EPOLLOUT) 


{ 
/* 根 据 写 的 结果 ， 决 定 是 否 关闭 连接 */ 
if(!users[sockfd] .write()) 


users[sockfd].close_conn(); 


} 

} 
else 
{} 

} 


} 
close(epollfd); 


close(listenfd); 
delete[ lusers; 
delete pool; 
return ©; 


} 


第 三 篇 ”高 性 能 服务 硕 优 化 与 监测 
第 16 章 ”服务 器 调制 、 调 试 和 测试 


第 17 章 ”系统 监测 工具 
第 16 草 ”服务 絮 调 制 、 调 斌 和 测试 


在 前 面 的 革 节 中 ， 我 们 已 经 细致 地 探讨 了 服务 句 编 程 的 诸多 方 
面 。 现 在 我 们 要 从 系统 的 角度 来 优化 、 改 进 服务 器， 这 包括 3 个 方面 的 
内 容 : 系统 调制 、 服 务 如 调试 和 压力 测试 。 


Linux 乎 台 的 一 个 优秀 特性 是 内 核 微调 ， 即 我 们 可 以 通过 修改 文件 
的 方式 来 调整 内 核 参数 。16.2 闻 将 讨论 与 服务 器 性 能 相关 的 部 分 内 核 
参数 。 这 些 内 核 参 数 中， 系统 或 进程 能 打开 的 最 大 文件 描述 符 数 尤其 
重要 ， 所 以 我 们 在 16.1 节 单独 讨论 之 。 


在 服务 絮 的 开发 过 程 中 ， 我 们 可 能 碰 到 各 种 意 想不到 的 错误 。 一 
种 调试 方法 是 用 tcpdump 抓 包 ， 正 如 本 书 前 面 革 方 介 绍 的 那样 。 不 过 这 
种 方法 主要 用 于 分 析 程 序 的 输入 和 输出 。 对 于 服务 器 的 逻辑 错误 ， 更 
方便 的 调试 方法 是 使 用 gdb 调 试 右 。 我 们 将 在 16.3 广 讨论 如 何 用 gdb 调 
试 多 进程 和 多 线程 程序 。 


编写 庄 力 测试 工具 通 利 被 认为 是 服务 融 开 发 的 一 个 部 分 。 庄 力 测 
试 工 具 模 拟 现实 世界 中 高 并 发 的 客户 请 求 ， 以 测试 服务 邵 在 高 压 状 态 
下 的 稳定 性 。 我 们 将 在 16.4 市 给 出 一 个 简单 的 压力 测试 程序 。 


16.1 ”最 大 文件 搞 述 符 数 


文件 描述 符 是 服务 此 程序 的 宝 贯 资源 ， 几 乎 所 有 的 系统 调用 都 是 
和 文件 摘 述 符 打 交道 。 系 统 分 配给 应 用 程序 的 文件 摘 述 符 数 量 生 有限 
制 的 ， 所 以 我 们 必须 总 是 关闭 那些 已 经 不 再 使 用 的 文件 描述 符 ， 以 释 
放 它 们 占用 的 资源 。 比 如 作为 守护 进程 运行 的 服务 器 程序 束 应 该 总 是 
关闭 标 准 输入 、 标 准 输出 和 标准 错误 这 3 个 文件 描述 符 。 


Linux 对 应 用 程序 能 打开 的 最 大 文件 描述 符 数 量 有 两 个 层次 的 限 
制 : 用 户 级 限制 和 系统 级 限制 。 用 户 级 限制 是 指 目标 用 户 运 行 的 所 有 
进程 总 共 能 打开 的 文件 描述 符 数 ;系统 级 的 限制 是 指 所 有 用 户 总 共 能 
打开 的 文件 描述 符 数 。 


下 面 这 个 命令 是 最 钊 用 的 查看 用 户 级 文件 摘 述 符 数 限制 的 方法 : 


$ulimit-n 


我 们 可 以 通过 如 下 方式 将 用 户 级 文件 描述 符 数 限制 设 定 为 max- 


file-number: 


$ulimit-SHn max-file-number 


不 过 这 种 设置 是 临时 的 ， 只 在 当前 的 session 中 有 将。 为 永久 修改 
用 户 级 文件 描述 符 数 限制 ， 可 以 在 /etc/security/limits.conf 文 件 中 加 入 如 
下 两 项 : 


*hard nofile max-file-number 
*soft nofile max-file-number 


第 一 行 古 指 系 统 的 硬 限 制 ， 第 二 行 是 软 限制 。 我 们 在 7.4 市 讨论 过 
这 两 种 资源 限制 。 


如 采 妥 修改 系统 级 文件 描述 符 数 限制 ， 则 可 以 使 用 如 下 命令 : 


sysctl-w fs.file-max=max-file-number 


不 过 该 命令 也 是 临时 更 改 系统 限制 。 要 永久 更 改 系统 级 文件 描述 
符 数 限制 ， 则 需要 在 /etc/sysctl.conf 文 件 中 添加 如 下 一 项 : 


fs.file-max=max-file-number 


然后 通过 执行 sysctl-p 命 令 使 更 改 生效 。 


16.2 ”调整 内 核 参 数 


几乎 所 有 的 内 核 模块 ， 包 括 内 核 核 心 模块 和 张 动 程 序 ， 都 
在 /proc/sys 文 件 系统 下 提供 了 某 些 配置 文件 以 供用 户 调 整 模块 的 属性 
和 行为 。 通 常 一 个 配置 文件 对 应 一 个 内 核 参数 ， 文 件 名 就 是 参数 的 名 
字 ， 文 件 的 内 容 是 参数 的 值 。 我 们 可 以 通过 命令 sysctl-a 碍 看 所 有 这 些 
内 核 参 数 。 本 市 将 讨论 其 中 和 网 络 编程 天 系 较为 紧密 的 部 分 内 核 参 


数 。 


16.2.1 /proc/sys/fs 目 录 下 的 部 分 文件 


/proc/sys/fs 目 录 下 的 内 核 参 数 都 与 文件 系统 相关 。 对 于 服务 颖 程 
序 来 说 ， 其 中 最 重要 的 是 如 下 两 个 参数 : 


口 /proc/sys/fs/file-max， 系 统 级 文件 描述 符 数 限制 。 直 接 修 改 这 个 
参数 和 16.1 节 讨论 的 修改 方法 有 相同 的 效果 (不 过 这 是 临时 修改 ) 。 
一 般 修改 /proc/sys/fs/file-max 后 ， 应 用 程序 需要 把 /proc/sys/fs/inode-max 
设置 为 新 /proc/sys/fs/file-max 值 的 3~4 倍 ， 否 则 可 能 导致 让 点 数 不 够 
用 。 


口 /proc/sys/fs/epoll/max_user_watches， 一 个 用 户 能 够 往 epoll 内 核 
事件 表 中 注册 的 事件 的 总 量 。 它 是 指 该 用 户 打 开 的 所 有 epoll 实 例 总 共 


能 监听 的 事件 数目 ， 而 不 是 单个 epoll 实 例 能 监听 的 事件 数目 。 往 epoll 
内 核 事件 表 中 注册 一 个 事件 ， 在 32 位 系统 上 大 概 消耗 90 字 节 的 内 核 空 
间 ， 在 64 位 系统 上 则 消耗 160 字 节 的 内 核 空 间 。 所 以 ， 这 个 内 核 参 数 限 
制 了 epoll 使 用 的 内 核 内 存 总 量 。 


16.2.2 /proc/sys/net 目 隶 下 的 部 分 文件 


内 核 中 网 络 模 块 的 相关 参数 都 位 于 /proc/sys/net 目 录 下 ， 其 中 和 
TCP/IP 协 议 相 天 的 参数 主要 位 于 如 下 三 个 子 目 录 中 : core、ipv4 和 
ipv6。 在 前 面 的 章节 中 ， 我 们 已 经 介绍 过 这 些 子 目录 下 的 很 多 参数 的 
含义， 现在 再 总 结 一 下 和 服务 器 性 能 相关 的 部 分 参数 。 


口 /proc/sysmnet/core/somaxconn， 指 定 listen 监 听 队 列 里 ， 能 够 建立 
完整 连接 从 而 进入 ESTABLISHED 状 态 的 socket 的 最 大 数目 。 读 者 不 妨 
修改 该 参数 并 重新 运行 代码 清单 5-3， 看 看 其 影响 。 


口 /proc/sys/neUipv4/tcp_max_syn_backlog， 指 定 listen 监 听 队 列 里 ， 


能 够 转移 至 ESTAB-LISHED 或 者 SYN_RCVD 状 态 的 socket 的 最 大 数 


I 


口 /proc/sys/net/ipv4/tcp_wmem， 它 包含 3 个 值 ， 分 别 指定 一 个 
socket 的 TCP 写 缓冲 区 的 最 小 值 、 默 认 值 和 最 大 值 。 


口 /proc/sys/net/ipv4/tcp_rmem， 它 包含 3 个 值 ， 分 别 指定 一 个 socket 
的 TCP 读 缓冲 区 的 最 小 值 、 默 认 值 和 最 大 值 。 在 代码 清单 3-6 中 ， 我 们 
正 是 通过 修改 这 个 参数 来 改变 接收 通告 窗口 大 小 的 。 


口 /proc/sys/net/ipv4/tcp_syncookies， 指 定 是 否 打 开 TCP 同 步 标签 
(syncookie) 。 同 步 标签 通过 启动 cookie 来 防止 一 个 监听 socket 因 不 停 
地 重复 接收 来 自 同 一 个 地 址 的 连接 请 求 (同步 报 文 段 ) ， 而 导致 isten 
监听 队列 洪 出 (所 谓 的 SYN 风 芭 ) 


除了 通过 直接 修改 文件 的 方式 来 修改 这 些 系统 参数 外 ， 我 们 也 可 
以 使 用 sysctl 命 令 来 修改 它们 。 这 两 种 修改 方式 部 是 临时 的 。 永 久 的 修 
改 方法 是 在 /etc/sysctl.conf 文 件 中 加 入 相应 网 络 参数 及 其 数值 ， 并 执行 
sysctl-p 使 之 生效 ， 殉 像 修改 系统 最 大 允许 打开 的 文件 描述 符 数 那样 。 


16.3 gdb 调 试 


Linux 程 序 员 必 然 都 使 用 过 gdb 调 试 絮 来 调试 程序 。 我 们 也 假设 读 
者 懂得 基本 的 gdb 调 试 方法 ， 比 如 设置 断 点 ， 查 看 变量 等 。 这 一 节 要 讨 
论 的 是 如 何 使 用 gdb 来 调试 多 进程 和 多 线程 程序 ， 因 为 这 是 后 台 程序 调 
试 不 可 避免 而 又 比较 困难 的 部 分 。 


16.3.1 用 gdb 调 试 多 进程 程序 


如 果 一 个 进程 通过 fork 系 统 调用 创建 了 子 进程 ，gdb 会 继续 调试 原 
来 的 进程 ， 子 进程 则 正常 运行 。 那 么 该 如 何 调试 子 进程 呢 ? 党 用 的 方 
法 有 如 下 两 种 。 


1. 单 独 调试 子 进程 


子 进 程 从 本 质 上 说 也 是 一 个 进程 ， 因 此 我 们 可 以 用 通用 的 gdb 调 试 
方法 来 调试 它 。 举 例 来 说 ， 如 条 要 调试 代码 清单 15-2 摘 述 的 CGI 进程 
池 服 务 器 的 某 一 个 子 进程 ， 则 我 们 可 以 先 运行 服务 器 ， 然 后 找到 目标 
子 进程 的 PTD， 再 将 其 附加 (attach) 到 gdb 调 试 嚣 上， 具体 操作 如 代码 


清单 16-1 所 示 。 


代码 清单 16-1 通过 附加 子 进程 的 PID 来 调试 子 进程 


$./cgisrv 127.0.0.1 12345 
$ps-ef|grep cgisrv 


shuang 4182 3601 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4183 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4184 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4185 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4186 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4187 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4188 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4189 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 
shuang 4190 4182 0 12:25 pts/4 00:00:00./cgisrv 127.0.0.1 12345 


$gdb 

(gdb )attach 4183/* 将 子 进 程 4183 附 加 到 gdb 调 试 器 */ 

Attaching to process 4183 

Reading Symbols 
from/home/shuang/codes/pool process/cgisrv...done. 

Reading symbols from/usr/1l1ib/libstdc++.s0o.6...Reading symbols 
from/usr/l1ib/debug/usr/l1ib/libstdc++.s0.6.0.16.debug...done. 

done. 

Loaded symbols for/usr/lib/libstdc++.so.6 

Reading symbols from/l1ib/libm.so.6...(no debugging symbols 
found)...done. 

Loaded symbols for/lib/libm.so.6 

Reading symbols from/l1ib/libgcc_s.so.1...Reading symbols 
from/usr/l1ib/debug/1lib/libgcc_s-4.6.2-20111027.so.1.debug...done. 

done. 

Loaded symbols for/lib/libgcc_s.so.1 

Reading symbols from/l1ib/libc.so.6...(no debugging symbols 
found)...done. 

Loaded symbols for/lib/libc.so.6 

Reading symbols from/l1ib/ld-linux.so.2...(no debugging symbols 
found)...done. 

Loaded symbols for/lib/ld-linux.so.2 

Ox0047c416 in kernel vsyscall() 

(gdb)b processpool.h:264/* 设 置 子 进程 中 的 断 点 */ 

Breakpoint 1 at Ox8049787:file processpool.h,1line 264. 

(gdb)c 

Continuing. 

/* 接 下 来 从 另 一 个 终端 使 用 telnet 127.0.0.1 12345 来 连接 服务 器 并 发 送 一 些 数 
据 ， 调 试 器 就 按照 我 们 预期 的 ， 在 断 点 处 暂停 */ 

Breakpoint 1,processpool<cgi conn>::run_child(this=0x9a47008)at 
processpool.h:264 

264 users[sockfd].process(); 

(gdb )bt 

#0 processpool<cgi conn>::run_child(this=0x9a47008)at 
processpool.h:264 

#1 Ox080491fe in processpool<cgi conn>::run(this=0x9a47008)at 
processpool.h:169 


#2 0X08048ef9 in main(argc=3,argv=0xbfbcob74)at main.cpp:138 
(gdb) 


2. 使 用 调试 器 选项 follow-fork-mode 


gdb 调 试 絮 的 选项 follow-fork-mode 人 允许 我 们 选择 程序 在 执行 fork 系 
统 调用 后 是 继续 调试 父 进程 还 是 调试 子 进 程 。 其 用 法 如 下 : 


(gdb)set follow-fork-mode mode 


其 中 ，mode 的 可 选 值 是 parent 和 child， 分 别 表示 调试 父 进程 和 子 


进程 。 还 是 使 用 前 面 的 例子 ， 这 次 考虑 使 用 follow-fork-mode 选 项 来 调 
试 子 进程 ， 如 代码 清单 16-2 所 示 。 


代码 清单 16-2 ”使 用 follow-fork-mode 选 项 调试 子 进 程 


$gdb./cgisrv 

(gdb)set follow-fork-mode child 

(gdb)b processpool.h:264 

Breakpoint 1 at Ox8049787:file processpool.h,1line 264. 
(gdb)r 127.0.0.1 12345 


Starting program:/home/shuang/codes/pool process/cgisrv 
127.0.0.1 12345 


[New process 4148] 

send request to child 0 

[Switching to process 4148] 

Breakpoint 1,processpool<cgi conn>::run_child(this=0x804c008)at 
processpool.h:264 

264 users[sockfd].process(); 

Missing separate debuginfos,use:debuginfo-install glibc-2.14.90- 
24.fc16.6.i686 

(gdb )bt 

#0 processpool<cgi conn>::run_child(this=0x804c008)at 
processpool.h:264 


#1 0X080491fe in processpool<cgi conn>::run(this=0x804c008)at 
processpool.h:169 

#2 0X08048ef9 in main(argc=3,argv=0xbffff4e4)at main.cpp:138 

(gdb) 


16.3.2 ”用 gdb 调 试 多 线程 程序 


gdb 有 一 组 命令 可 辅助 多 线程 程序 的 调试 。 下 面 我 们 仅 列 举 其 中 向 
用 一 此 


Dinfo threads， 显 示 当 前 可 调试 的 所 有 线程 。gdb 会 为 每 个 线程 分 
配 一 个 ID， 我 们 可 以 使 用 这 个 ID 来 操作 对 应 的 线程 。ID 前 面 有 “*” 号 
的 线程 是 当前 被 调试 的 线程 。 


Dthread ID， 调 试 目 标 ID 指 定 的 线程 。 


口 set scheduler-locking[offlonlstep]。 调 试 多 线程 程序 时 ， 默 认 除了 
被 调试 的 线程 在 执行 外 ， 其 他 线程 也 在 继续 执行 ， 但 有 的 时 候 我 们 希 
望 只 让 被 调试 的 线程 运行 。 这 可 以 通过 这 个 命令 来 实现 。 该 命令 设置 
scheduler-locking 的 值 : off 表 示 不 锁定 任何 线程 ， 即 所 有 线程 都 可 以 继 
续 执 行 ， 这 是 默认 值 ;， on 表示 只 有 当前 被 调试 的 线程 会 继续 执行 ; 
step 表 示 在 单 步 执行 的 时 候 ， 只 有 当前 线程 会 执行 。 


举例 来 说 ， 如 有 宁 要 依次 调试 代码 清单 15-6 所 描述 的 Web 服 务 人 大 
(名 为 websrv) 的 父 线程 和 子 线程 ， 则 可 以 采用 代码 清单 16-3 所 示 的 


放 全 多 
代码 清单 16-3 ”独立 调试 父 线程 和 子 线程 


$gdb ./websrv 

(gdb)b main.cpp:130/* 设 置 父 线 程 中 的 断 点 */ 

Breakpoint 1 at Ox80498d3:file main.cpp,1line 130， 

(gdb)b threadpool.h:105/* 设 置 子 线程 中 的 断 点 */ 

Breakpoint 2 at Ox804a1i0b:file threadpool.h,1ine 105， 

(gdb)r 127.0.0.1 12345 

Starting program:/home/webtop/codes/pool thread/websrv 127.0.0.1 
12345 

[Thread debugging using libthread_ db enabled] 

Using host libthread_ db library"/lib/libthread_db.so.1". 

create the oth thread 

[New Thread 0xb7fe1b40(LWP 5756)] 

/* 从 另 一 个 终端 使 用 telnet 127.0.0.1 12345 来 连接 服务 器 并 发 送 一 些 数据 ， 调 试 
器 就 按照 我 们 预期 的 ， 在 断 点 处 暂停 */ 

Breakpoint 1,main(argc=3,argv=0Oxbffff4e4)at main.cpp:130 

130 if(users[sockfd].read()) 

(gdb)info threads/* 查 看 线程 信息 。 当 前 被 调试 的 是 主线 程 ， 其 ID 为 1*/ 

Id Target Id Frame 

2 Thread Oxb7fe1ib40(LWP 5756)"websrv"Ox00111416 
in__kernel vsyscall() 

*1 Thread 0xb7fe3700(LWP 
5753)"webSsrv'"main(argdc=3,argv=0xbffff4e4)at main.cpp:130 

(gdb)set scheduler-locking on/* 不 执行 其 他 线程 ， 锁 定 调试 对 象 */ 

(gdb)n/* 下 面 的 操作 都 将 执行 父 线程 的 代码 */ 

132 pool->append(users+sockfd); 

(gdb)n 

103 for(int i=0;i<number;i++) 

(gdb) 

94 while(true) 

(gdb) 

96 int number=epoll wait(epollfd,events,MAX_ EVENT_NUMBER, -1); 

(gdb) 

AC 

Program received signal SIGINT,Interrupt. 

Ox00111416 in kernel vsyscall() 

(gdb )thread 2/* 将 调试 切换 到 子 线程 ， 其 ID 为 2*/ 

[Switching to thread 2(Thread 90xb7fe1b40(LWP 5756) )] 

#0 0X00111416 in kernel vsyscall() 

(gdb )bt/* 显 示 子 线程 的 调用 栈 */ 

#0 0X00111416 in kernel vsyscall() 


#1 0X44d91c05 
#2 Ox08049aff 
#3 0X0804a0db 
threadpool.h:98 
#4 Ox08049f8f 
threadpool.h:89 
#5 Ox44d8bcd3 
#6 Ox44cc8a2e 


in 
in 
in 


in 


sem wait@Q@GLIBC_ 2.1()from/lib/libpthread.so.0 
sem: :wait(this=0x804e034)at locker.h:24 
threadpool<http_conn>::run(this=0x804e008)at 


threadpool<http_conn>::worker(arg=0x804e008)at 


start_thread()from/l1ib/libpthread.so.0 
n clone()from/lib/libc.so.6 


(gdb)n/* 下 面 的 操作 都 将 执行 子 线程 的 代码 */ 

Single stepping until exit from function kernel vsyscall, 
which has no line number information. 

Ox44d91c05 In sem waitQ@Q@GLIBC 2.1()from/lib/libpthread.so.0 


(gdb) 


最 后 ， 关 于 调试 进程 池 和 线程 池 程 序 的 一 个 不 错 的 方法 ， 古 先 将 
池 中 的 进程 个 数 或 线程 个 数 减 少 至 1， 以 观察 程序 的 逻辑 是 否 正 确 ， 比 
如 代码 清单 16-3 束 是 这 样 做 的 ， 然 后 逐步 增加 进程 或 线程 的 数量 ， 以 


调试 进程 或 线程 的 同步 


是 否 正 确 。 


16.4 压力 测试 


压力 测试 程序 有 很 多 种 实现 方式 ， 比 如 IO 复 用 方式 ， 多 线程 、 多 
进程 并 发 编程 方式 ， 以 及 这 些 方 式 的 结合 使 用 。 不 过 ， 单 纯 的 VO 复 用 
方式 的 施 讨 程 度 是 最 高 的 ， 因 为 线程 和 进程 的 调度 本 身 也 是 要 占用 一 
定 CPU 时 间 的 。 因 此 ， 我 们 将 使 用 epol 来 实现 一 个 通用 的 服务 器 压力 
测试 程序 ， 如 代码 清单 16-4 所 示 。 


代码 清单 16-4 服务 器 压力 测试 程序 


#include<stdlib.h> 

#include<stdio.h> 

#include<assert.h> 

#include<unistd.h> 

#include<sys/types.h> 

#include<sys/epoll.h> 

#include<fcntl.h> 

#include<sys/socket.h> 

#include<netinet/in.h> 

te nl h > 

#include<string.h 

/7 和 个 客户 连 按 不 信号 向 服务 器 发送 这 个 请 求 / 

static const char*request="GET http://localhost/index.html 
HTTP/1.1i\r\nConnection:keep-alive\r\n\r\Nnxxxxxxxxxxxx"; 

int setnonblocking(int fd) 


int old_option=fcntl1l(fd,F_GETFL); 

int new_option=old_option|O_NONBLOCK; 
fcntli(fd,F_SETFL,new_option); 

return old_option; 


} 
void addfd(int epoll fd,int fd) 


epoll_ event event; 
event.data.fd=fd; 


event .events=EPOLLOUT|EPOLLET |EPOLLERR; 
epoll ctl(epoll fd,EPOLL_ CTL_ADD, fd, &event); 
setnonblocking(fd); 


} 

/* 向 服务 器 写 入 len 字 节 的 数据 */ 
bool write nbytes(int sockfd,const char*buffer,int len) 
{ 

int bytes_ write=0; 

printf("write out%d bytes to socket%d\n",1en,sockfd); 
while(1) 

{ 

bytes write=send(sockfd,buffer, len, 0); 

if(bytes write==-1) 

{ 


return false; 


else if(bytes write==0) 
{ 

return false; 

} 

len-=bytes_write; 
buffer=buffer+bytes_ write; 
if(len<=0) 

{ 

return true; 

} 

} 


} 

/* 从 服务 器 读 取 数 据 */ 
bool read_once(int sockfd,char*buffer,int len) 
{ 

int bytes_read=0; 

memset (buffer,'\0',1en); 
bytes_read=recv(sockfd, buffer, len, 0); 
if(bytes_read==-1) 


return false; 


else if(bytes_read==0) 

{ 

return false; 

} 

printf("read in%d bytes from socket%d with 
content:%s\n",bytes_read, sockfd, buffer ); 

return true; 


} 
/* 癌 服务 器 发 起 num 个 TcP 连 接 ， 我 们 可 以 通过 改变 num 来 调整 测试 压力 */ 
void start_conn(int epoll fd,int num,const char*ip,int port) 


{ 

int ret=0; 

struct sockaddr_in address; 

bzero(&address, sizeof (address)); 

address.sin_ family=AF_INET; 

inet_pton(AF_INET,ip, Saddress.sin addr); 

address.sin_port=htons(port); 

for(int i=0;i<num;++i) 

{ 

sleep(1); 

int sockfd=socket(PF_INET,SOCK_ STREAM, 0); 

printf("create 1 sock\n"); 

if(sockfd<0) 

{ 。 

continue 

} 

if(connect(sockfd, (struct sockaddr*)& 
address, sizeof (address) )==0) 

{ 

printf("build connection%d\n",1i); 

addfd(epoll_ fd, sockfd ) ; 

} 

} 

} 


void close conn(int epoll fd,int sockfd) 


{ 

epoll ctl(epoll fd,EPOLL_CTL_DEL, sockfd, 0); 
close(sockfd); 

} 

int main(int argc,char*argv[]) 

{ 

assert(argc==4); 

int epoll fd=epoll_ create(100); 
start_conn(epoll fd,atoi(argv[3]),argv[1],atoi(argv[2])); 
epoll_event events[10000]; 

char buffer[2048]; 

while(1) 


int fds=epoll wait(epoll fd,events,10000,2000); 
for(int i=0;i<fds;i+t++) 


int sockfd=events[i].data.fd; 
if(events[i].events&EPOLLIN) 


if(!read once(sockfd,buffer,2048)) 


{ 
close_conn(epoll fd, sockfd); 


} 


struct epoll event event ; 

event .events=EPOLLOUT|EPOLLET |EPOLLERR; 
event.data.fd=sockfd; 

epoll ctl(epoll fd,EPOLL CTL_ MOD, sockfd, &event); 


else if(events[i].events&EPOLLOUT) 
if(!write_nbytes(sockfd,request,strlen(request))) 


{ 

close_conn(epoll fd, sockfd); 

} 

struct epoll event event; 

event .events=EPOLLIN|EPOLLET |EPOLLERR; 
event.data.fd=sockfd; 

epoll ctl(epoll fd,EPOLL_ CTL _ MOD, sockfd, &event); 


else if(events[i].events&EPOLLERR) 


{ 
close_conn(epoll fd, sockfd); 


OO 


下 面 考虑 使 用 该 压力 测试 程序 (名 为 stress_test) 来 测试 代码 清单 
15-6 所 描述 的 Web 服务 器 的 稳定 性 。 我 们 先 在 测试 机 器 ernest-laptop 上 
运行 websrv， 然 后 从 Kongming20 上 执行 stress_test， 癌 websrv 服 务 右 发 
起 1000 个 连接 。 具 体操 作 如 下 : 


$./websrv 192.168.1.108 12345# 在 ernest-laptop 上 执行 ， 监 听 端 口 12345 
$./stress_test 192.168.1.108 12345 1000# 在 Kongming290 上 执行 


如 果 websrv 服 务 絮 程序 足够 稳定 ， 那 么 websrv 和 和 stress_test 这 两 个 
程序 将 一 直 运 行 下 去 ， 并 不 断交 换 数 据 。 


第 17 章 ”系统 监测 工具 


Linux 提 供 了 很 多 有 用 的 工具 ， 以 方便 开发 人 员 调 试 和 测评 服务 器 
程序 。 娴 禹 的 网 络 程序 员 在 开发 服务 郁 程 序 的 整个 过 程 中 ， 都 将 不 断 
地 使 用 这 些 工具 中 的 一 个 或 者 多 个 来 监测 服务 器 行为 。 其 中 的 某 些 工 
具 更 古 黑 客 们 常用 的 利 右 。 


本 章 将 讨论 几 个 最 常用 的 工具 : tcpdump 、nc 、strace 、]sof 、 
netstat、vmstat、ifstat 和 和 mpstat。 这些 工 具 都 支持 很 多 种 选项 ， 不 过 我 
们 的 讨论 仅 限 于 其 中 最 常用 、 最 实用 的 那些 。 


17.1 tcpdump 


tcpdump 是 一 款 经 典 的 网 络 抓 包 工具 。 即 使 在 今天 ， 我 们 拥有 像 
Wireshark 这 样 更 易于 使 用 和 掌握 的 抓 包 工具 ，tcpdump 仍 然 是 网 络 程 
序 员 的 必 备 利器 。 


tcpdump 给 使 用 者 提供 了 大 量 的 选项 ， 用 以 过 滤 数 据 包 或 者 定制 输 
出 格式 。 前 面 革 市 中 我 们 介绍 过 其 中 的 一 些 ， 现 在 我 们 把 常见 的 选项 
总 结 如 下 : 


口 -n， 使 用 I 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 
号 ， 而 不 是 服务 名 称 。 


口 -i， 指 定 要 监听 的 网 卡 接口 。“-i any” 表 示 抓 取 所 有 网 卡 接口 上 
的 数据 包 。 


口 -v， 输 出 一 个 稍微 详细 的 信息 ， 例 如 ， 显 示 IP 数 据 包 中 的 TIL 和 
TOS 信 息 。 


口 -t， 不 打印 时 间 截 。 
口 -e， 显 示 以 太 网 帧 头 部 信息 。 


口 -<c， 仅 抓 取 指定 数量 的 数据 包 。 


口 -x， 以 十 六 进 制 数 显示 数据 包 的 内 容 ， 但 不 显示 包 中 以 太 网 帧 
的 头 部 信息 。 


口 -X， 与 -X 选 项 类 似 ， 不 过 还 打印 每 个 十 六 进 制 字 和 对 应 的 ASCII 


字符 。 
口 -XX， 与 -X 相 同 ， 不 过 还 打印 以 太 网 帧 的 头 部 信息 。 


口 -s， 设 置 抓 包 时 的 抓 取 长 度 。 当 数据 包 的 长 度 超过 抓 取 长 度 
时 ，tcpdump 抓 取 到 的 将 征 被 截断 的 数据 包 。 在 4.0 以 及 之 前 的 版 本 
中 ， 默 认 的 抓 包 长 度 是 68 字 节 。 这 对 于 IP、TCP 和 UDP 等 协议 就 已 经 


足够 了 ， 但 对 于 像 DNS、NFS 这 样 的 协议 ，68 字 万 通 各 不 能 容纳 一 个 
完整 的 数据 包 。 比 如 我 们 在 1.6.3 小 和 节 抓 取 DNS 数 据 包 时 ， 怠 使 用 了 -s 
选项 (测试 机 器 ermest-laptop 上 ，tcpdump 的 版 本 是 4.0.0) 。 不 过 4.0 之 
后 的 版 本 ， 默 认 的 抓 包 长 度 被 修改 为 65 535 字 方 ， 因 此 我 们 不 用 再 担 
心 抓 包 长 度 的 问题 了 。 


口 -3$， 以 绝对 值 来 显示 TCP 报 文 段 的 序号 ， 而 不 是 相对 值 。 
口 -w， 将 tcpdump 的 输出 以 特殊 的 格式 定 癌 到 某 个 文件 。 


口 -r， 从 文件 读 取 数据 包 信息 并 显示 之 。 


除了 使 用 选项 外 ，tcpdump 还 文 持 用 表达 式 来 进一步 过 滤 数 据 包 。 
tcpdump 表 达 式 的 操作 数 分 为 3 种 : 类 型 (type) 、 方 向 (dir) 和 协议 
(proto) 。 下 面 依次 介绍 之 。 


口 类 型 ， 解 释 其 后 面 紧 跟着 的 参数 的 含义 。tcpdump 文 持 的 类 型 包 
括 host、net、port 和 portrange。 它 们 分 别 指定 主机 名 (或 IP 地 址 ) ， 用 
CIDR 方 法 表示 的 网 络 地 址 ， 端 口号 以 及 端口 范围 。 比 如 ， 要 抓 取 整个 
1.2.3.0/255.255.255.0 网 络 上 的 数据 包 ， 可 以 使 用 如 下 命令 : 


$tcpdump net 1.2.3.0/24 


口 方向 ，src 指 定数 据 包 的 发 送 喘 ，dst 指 定数 据 包 的 目的 端 。 比 如 
要 抓 取 进 入 端口 13579 的 数据 包 ， 可 以 使 用 如 下 命令 : 


$tcpdump dst port 13579 


口 协议 ， 指 定 目标 协议 。 比 如 要 抓 取 所 有 ICMP 数 据 包 ， 可 以 使 用 
0 


$tcpdump icmp 


当然 ， 我 们 还 可 以 使 用 逻辑 操作 符 来 组 织 上 述 操作 数 以 创建 更 复 
杂 的 表达 式 。tcpdump 支 持 的 逻辑 操作 符 和 编程 语言 中 的 逻辑 操作 符 完 
全 相同 ， 包 括 and (或 者 区 区 ) 、or (或 者 |) 、not (或 者 !) 。 比 如 要 
抓 取 主机 ernest-laptop 和 所 有 非 Kongming20 的 主机 之 间 交 换 的 IP 数 据 
包 ， 可 以 使 用 如 下 命令 : 


$tcpdump ip host ernest-laptop and not Kongming20 


如 果 表 达 式 比较 复杂 ， 那 么 我 们 可 以 使 用 括号 将 它们 分 组 。 不 过 
在 使 用 括号 时 ， 我 们 要 么 使 用 反 斜 杠 “对 它 转 义 ， 要 么 用 单 引 号 “” 将 
其 括 住 ， 以 避免 它 被 shell 所 解释 。 比 如 要 抓 取 来 自主 机 10.0.2.4， 目 标 
端口 是 3389 或 22 的 数据 包 ， 可 以 使 用 如 下 命令 : 


$tcpdump 'src 10.0.2.4 and(dst port 3389 or 22)' 


此 外 ，tcpdump 还 允许 直接 使 用 数据 包 中 的 部 分 协议 字段 的 内 容 来 
过 滤 数 据 包 。 比 如 ， 仪 抓 取 TCP 同 步 报 文 段 ， 可 使 用 如 下 命令 : 


$tcpdump 'tcp[13] 儿 21=0， 
这 是 因为 TCP 头 部 的 第 14 个 字 节 的 第 2 个 位 正 是 同步 标志 。 该 命令 
也 可 以 表示 为 : 


$tcpdump'tcp[tcpflags]&tcp-syn!=0'。 


最 后 ，tcpdump 的 具体 输出 格式 除了 与 选项 有 关外 ， 还 与 协议 有 
关 。 前 文中 我 们 讨论 过 IP、TCP、ICMP、DNS 等 协议 的 tcpdump 输 出 
格式 。 关 于 其 他 协议 的 tcpdump 输 出 格式 ， 请 读者 自己 参考 tcpdump 的 
man 手 册 ， 本 书 不 再 长 述 。 


17.2 lsof 


lsof (list open file) 是 一 个 列 出 当前 系统 打开 的 文件 描述 符 的 工 
具 。 通 过 它 我 们 可 以 了 解 感 兴趣 的 进程 打开 了 哪些 文件 描述 符 ， 或 者 
我 们 感 兴 趣 的 文件 摘 述 符 被 哪些 进程 打开 了 。 


lsof 命 令 和 常用 的 选项 包括 : 
口 -i， 显 示 socket 文 件 朱 述 符 。 该 选项 的 使 用 方法 是 : 


$1lsof-i[46][protocol][@hostname|ipaddr][:service|port] 


其 中 ，4 表 示 IPv4 协 议 ，6 表 示 IPv6 协 议 ; protocol 指 定 传输 层 协 
议 ， 可 以 是 TCP 或 者 UDP; hostname 指 定 主机 名 ; ipaddr 指 定 主机 的 卫 
地 址 ，service 指 定 服务 名 ; port 指 定 端 口号 。 比 如 ， 要 显示 所 有 连接 到 
主机 192.168.1.108 的 ssh 服 务 的 socket 文 件 描述 符 ， 可 以 使 用 命令 : 


$1sof -i@192.168.1.108:22 


如 果 -i 选 项 后 不 指定 任何 参数 ， 则 lsof 命 令 将 显示 所 有 socket 文 件 


描述 符 。 


口 -u， 显 示 指 定 用 户 局 动 的 所 有 进程 打开 的 所 有 文件 描述 符 。 


口 -c<， 显 示 指 定 的 命令 打开 的 所 有 文件 描述 符 。 比 如 要 碍 看 
websrv 程 序 打开 了 哪些 文件 摘 述 符 ， 可 以 使 用 如 下 命令 : 


$lsof-c websrv 


口 p， 显 示 指 定 进程 打开 的 所 有 文件 朱 述 符 。 


口 -t， 仅 显示 打开 了 目标 文件 描述 符 的 进程 的 PID 。 


我 们 还 可 以 直接 将 文件 名 作为 lsof 命 令 的 参数 ， 以 查看 哪些 进程 打 
开 了 该 文件 


下 面 介绍 一 个 实例 : 查看 websrv 服 务 串 打开 了 哪些 文件 描述 符 。 
具体 操作 如 代码 清单 17-1 所 示 。 


代码 清单 17-1 用 lsof 命 令 查 看 websrv 服 务 器 打开 的 文件 描述 符 


$ps-ef|grep websrv# 先 获取 websrv 程 序 的 进程 号 

shuang 6346 5439 0 23:41 pts/3 00:00:00./websrv 127.0.0.1 13579 

$sudo lsof-p 6346# 用 -p 选 项 指定 进程 号 

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME 

websrv 6346 shuang cwd DIR 8,3 4096 
1199520/home/shuang/codes/pool_thread 

websrv 6346 shuang rtd DIR 8,3 4096 2/ 

websrv 6346 shuang txt REG 8,3 64817 
1199765/home/shuang/codes/pool_ thread/websryv 

websrv 6346 shuang mem REG 8,3 157200 1319677/1ib/1d-2.14.90.so 

websrv 6346 shuang mem REG 8,3 2000316 1319678/1ib/1libc- 
2.14.90.s0 

websrv 6346 shuang mem REG 8,3 135556 1319682/1ib/libpthread- 
2.14.90.s0 

websrv 6346 shuang mem REG 8,3 208320 1319681/1ib/l1ibm- 
2.14.90.s0 


websrv 6346 shuang mem REG 8,3 115376 1319685/1ib/libgcc_s- 
4.6.2-20111027.so.1 

websrv 6346 shuang mem REG 8,3 948524 
814873/usr/l1ib/libstdc++.s0.6.0.16 

websrv 6346 shuang Ou CHR 136,3 Ot© 6/dev/pts/3 

websrv 6346 shuang 1u CHR 136,3 Ot© 6/dev/pts/3 

websrv 6346 shuang 2u CHR 136,3 Ot© 6/dev/pts/3 

websrv 6346 shuang 3u IPv4 43816 OtQO TCP localhost:13579 

websrv 6346 shuang 4u 0000 0,9 0 4447 anon_inode 


lsof 命 令 的 输出 内 容 相当 丰富 ， 其 中 每 行内 容 都 包含 如 下 字段 : 


DCOMMAND， 执 行程 序 所 使 用 的 终端 命令 〈 默 认 仅 显示 前 9 个 


DPID， 文 件 摘 述 符 所 属 进程 鸭 PID 。 
口 USER， 拥 有 该 文件 描述 符 的 用 户 的 用 户 名 。 


DFD， 文 件 描述 符 的 描述 。 其 中 cwd 表 示 进 程 的 工作 目录 ，rtd 表 
示 用 户 的 根 目录 ，txt 表 示 进 程 运行 的 程序 代码 ，mem 表 示 直 接 映射 到 
内 存 中 的 文件 (本 例 中 都 是 动态 库 ) 。 有 的 FD 是 以 “数字 + 访问 权 
限 ” 表 示 的 ， 其 中 数字 是 文件 描述 符 的 具体 数值 ， 访 问 权 限 包 括 r (可 
读 ) 、w (可 写 ) 和 u (可 读 可 写 ) 。 在 本 例 中 ，0u、1u、2u 分 别 表示 
标准 输入 、 标 准 输出 和 标准 错误 输出; 3u 表 示 处 于 LISTEN 状 态 的 监听 
socket; 4u 表 示 epol 内 核 事 件 表 对 应 的 文件 描述 符 。 


DTYPE， 文 件 摘 述 符 的 类 型 。 其 中 DIR 是 目录 ，REG 是 普通 文 
件 ，CHR 是 字符 设备 文件 ，IPv4 是 IPv4 类 型 的 socket 文 件 描 述 符 ，0000 


征 未 知 类 型 。 更 多 文件 描述 符 的 类 型 请 参考 lsof 命 令 的 man 手 册 ， 这 里 


不 再 资 述 。 


口 DEVICE， 文 件 所 属 设备 。 对 于 字符 设备 和 块 设备 ， 其 表示 方 
法 是 “ 主 设备 号 ， 次 设备 号 ”。 由 代码 清单 17-1 可 见 ， 测 试 机 器 上 的 程 
序 文件 和 动态 库 都 存放 在 设备 “8,3” 中 。 其 中 ,，“8” 表 示 这 是 一 个 SCSI 
硬盘 ; “3” 表 示 这 是 该 硬盘 上 的 第 3 个 分 区 ， 即 sda3。websrv 程 序 的 标 
准 输入 、 标 准 输出 和 标准 错误 输出 对 应 的 设备 是 “136,3”。 其 
中 ，“136” 表 示 这 是 一 个 伪 终 端 ;，“3” 表 示 它 是 第 3 个 伪 终 站 ， 
即 /devwpts/3。 关 于 设备 编号 的 更 多 细 季 ， 请 参考 文档 
http: //www.kernel.org/pub/linux/docs/lanana/device-list/devices-2.6.txt ° 
对 于 FIFO 类 型 的 文件 ， 比 如 管道 和 socket， 该 字段 将 显示 一 个 内 核 引 
用 目标 文件 的 地 址 ， 或 者 是 其 i 节点 号 。 


口 SIZE/OFF， 文 件 大 小 或 者 偏 移 值 。 如 果 该 字段 显示 为 “0t*” 或 
者 “0x*”， 就 表示 这 是 一 个 偏 移 值 ， 否 则 就 表示 这 是 一 个 文件 大 小 。 对 
字符 设备 或 者 FIFO 类 型 的 文件 定义 文件 大 小 没有 意义 ， 所 以 该 字段 将 


显示 一 个 偏 移 值 。 


DNODE， 文 件 的 i 节点 号 。 对 于 socket， 则 显示 为 协议 类 型 ， 比 
如 “TCP>” a 


DNAME， 文 件 的 名 字 。 


如 果 我 们 使 用 telnet 命 令 癌 websrv 服 务 器 发 起 一 个 连接 ， 则 再 次 技 
行 代码 清单 17-1 中 的 lsof 命 令 时 ， 其 输出 将 多 出 如 下 一 行 : 


websrv 6346 shuang Su IPv4 44288 6@tg0 TCP localhost :13579- > 
localhost:48215(ESTABLISHED) 


该 输出 表示 服务 器 打开 了 一 个 IPv4 类 型 的 socket， 其 值 是 5， 且 它 
处 于 ESTABLISHED 状 态 。 该 socket 对 应 的 连接 的 本 端 socket 地 址 是 


(127.0.0.1，13579)， 远 端 socket 地 址 则 是 (127.0.0.1，48215) 。 


17.3 nc 


nc (netcat) 命令 短小 精干 、 功 能 强大 ， 有 者 “瑞士 军刀 ”的 美誉 。 
它 主要 被 用 来 快速 构建 网 络 连接 。 我 们 可 以 让 它 以 服务 器 方 式 运行 ， 
监听 某 个 端口 并 接收 客户 连接 ， 因 此 它 可 用 来 调试 客户 端 程序 。 我 们 
也 可 以 使 之 以 客户 端 方式 运行 ， 回 服务 部 发 起 连接 并 收发 数据 ， 因 此 
它 可 以 用 来 调试 服务 器 程序 ， 此 时 它 有 点 像 telnet 程 序 。 


口 -i， 设 置 数据 包 传 送 的 时 间 间 隔 。 


口 -!， 以 服务 器 方式 运行 ， 监 听 指 定 的 端口 。nc 命 令 默认 以 客户 端 
方式 运行 。 


口 -k， 重 复 接 受 并 处 理 某 个 端口 上 的 所 有 连接 ， 必 须 与 -1 选项 一 起 
使 用 


口 -n， 使 用 I 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 


号 ， 而 不 是 服务 名 称 。 
口 -p， 当 nc 命令 以 客户 端 方式 运行 时 ， 强 制 其 使 用 指定 的 器 口 
瑟 。3.4.2 小 世 中 我 们 束 曾 使 用 过 该 选项 。 


口 -s， 设 置 本 地 主机 发 送出 的 数据 包 的 IP 地 址 。 
口 -C， 将 CR 和 LE 两 个 字符 作为 行 结束 符 。 
口 -U， 使 用 UNIX 本 地 域 协议 通信 。 


口 -u， 使 用 UDP 协议 。nc 命 令 默认 使 用 的 传输 层 协议 是 TCP 协 议 。 


口 -w， 如 果 nc 客 户 端 在 指定 的 时 间 内 未 检测 到 任何 输入 ， 则 退 


口 -X， 当 nc 客户 端 和 代理 服务 右 通 信 时 ， 该 选项 指定 它们 之 间 使 
用 的 通信 协议 。 目 前 nc 支持 的 代理 协议 包括 “4” (SOCKS 
Vv.4) ,，“5”(SOCKS v.5) 和 “connect”(HTTPS proxy) 。nc 默 认 使 用 
的 代理 协议 是 SOCKS v.5。 


口 -x， 指 定 目标 代理 服务 器 的 也 地 址 和 端口 号 。 比 如 ， 要 从 
Kongming20 连 接 到 ernest-laptop 上 的 squid 代 理 服务 器 ， 并 通过 它 来 访 
问 www.baidu.com 的 Web 服 务 ， 可 以 使 用 如 下 命令 : 


$nc-x ernest-laptop:1080-X connect www.baidu.com 80 


口 -z， 扫 描 目 标 机 器 上 的 某 个 或 某 些 服务 是 否 开 启 (端口 扫 
描 ) 。 比 如 ， 要 扫描 机 器 ernest-laptop 上 端口 号 在 20~50 之 间 的 服务 ， 
可 以 使 用 如 下 命令 : 


$nc-z ernest-laptop 20-50 


举例 来 说 ， 我 们 可 以 使 用 如 下 方式 来 连 授 websrv 服 务 右 并 问 它 发 
送 数 据 : 


$nc-C 127.0.0.1 13579 (服务 器 监听 端口 13579) 
GET http://localhost/a.html HTTP/1.1 ( 回 车 ) 
Host :localhost 《〈 回 车 ) 
( 回 车 ) 
HTTP/1.1 404 Not Found 

Content -Length :49 

Connection:close 

The requested file was not found on this server. 


这 里 我 们 使 用 了 -C 选 项 ， 这 样 每 次 我 们 按 下 回 车 键 癌 服务 紫 发 送 
一 行 数据 时 ，nc 客 户 问 程 序 部 会 给 服务 紫 额 外 发 送 一 个 <CR> <LF 
> ， 而 这 正 是 websrv 服 务 器 期 望 的 HTTP 行 结束 符 。 发 送 完 第 三 行 数据 
之 后 ， 我 们 得 到 了 服务 器 的 啊 应 ， 内 容 正 是 我 们 期 鹿 的 ， 服务 器 没有 
找到 被 请 求 的 资源 文件 ahtml。 可 见 ，nc 命 令 是 一 个 很 方便 的 快速 测试 
工具 ， 通 过 它 我 们 能 很 快 找 出 服务 右 的 逻辑 错误 。 


17.4 strace 


strace 是 测试 服务 器 性 能 的 重要 工具 。 它 跟 踩 程序 运行 过 程 中 执行 
的 系统 调用 和 接收 到 的 信和 号， 并 将 系统 调用 名 、 参 数 、 返 回 值 及 信和 号 
名 输出 到 标准 输出 或 者 指定 的 文件 。 


口 -c<， 统 计 每 个 系统 调用 执行 时 间 、 执行 次 数 和 出 错 次 数 。 
口 -f， 跟 蹊 由 fork 调 用 生成 的 子 进程 。 
口 -t， 在 输出 的 每 一 行 信息 前 加 上 时 间 信息 。 


口 -e， 指 定 一 个 表达 式 ， 用 来 控制 如 何 跟踪 系统 调用 (或 接收 到 
的 信号 ， 下 同 ) 。 其 格式 是 : 


[qualifier=][!]valuei[,value2]...° 


qualifier 可 以 是 trace、abbrev、verbose、raw、signal、read 和 write 
中 之 一 ， 默 认 是 trace。value 是 用 于 进一步 限制 被 跟踪 的 系统 调用 的 符 
号 或 数值 。 它 的 两 个 特殊 取 值 是 a 和 none， 分 别 表示 跟踪 所 有 由 
qualifier 指 定 类 型 的 系统 调用 和 不 跟 踩 任何 该 类 型 的 系统 调用 。 关 于 
value 的 其 他 取 值 ， 我 们 简单 地 列举 一 些 : 


令 -e trace=set， 只 跟踪 指定 的 系统 调用 。 例 如 ，-e trace=open， 
close，read，write 表 示 只 跟踪 open、close、read 和 write 这 四 种 系统 调 


用 o 
令 -e trace=file， 只 跟踪 与 文件 操作 相关 的 系统 调用 。 
令 -e trace=process， 只 跟踪 与 进程 控制 相关 的 系统 调用 。 


令 -e trace=network， 只 跟踪 与 网 络 相 关 的 系统 调用 。 


令 -e trace=signal， 只 跟踪 与 信号 相关 的 系统 调用 。 


令 -e trace=ipc， 只 跟 踩 与 进程 间 通 信 相 关 的 系统 调用 。 


令 -e signal=set， 只 跟踪 指定 的 信号。 比如 ，-e signal=!SIGIO 表 示 
跟踪 除 SIGIO 之 外 的 所 有 信号 。 


令 -e read=set， 输 出 从 指定 文件 中 读 入 的 数据 。 例 如 ，-e read=3，5 
表示 输出 所 有 从 文件 描述 符 3 和 5 读 入 的 数据 。 


口 -o， 将 strace 的 输出 写 入 指定 的 文件 。 


strace 命 令 的 每 一 行 输出 都 包含 这 些 字 段 : 系统 调用 名 称 、 参 数 和 


返回 值 。 比 如 下 面 的 示例 : 


$strace cat/dev/null 
open("/dev/null",O_RDONLY|O_LARGEFILE )=3 


这 行 输出 表示 : 程序 “cat/dev/null* 在 运行 过 程 中 执行 了 open 系 统 
调用 。open 调 用 以 只 读 的 方式 打开 了 大 文件 /dev/nul， 然 后 返回 了 一 个 
值 为 3 的 文件 描述 符 。 需 要 注意 的 是 ， 该 示例 命令 将 输出 很 多 内 容 ， 这 
里 我 们 省 略 了 很 多 次 要 的 信息 ， 在 后 面 的 实例 中 ， 我 们 也 仅 显示 主题 
相关 的 内 容 。 


当 系 统 调用 发 生 错误 时 ，strace 命 令 将 输出 错误 标识 和 描述 ， 比 如 
下 面 的 示例 : 


$strace cat/foo/bar 
open("/foo/bar",O_RDONLY|O_LARGEFILE)=-1 ENOENT(No Such file or 
directory) 


strace 命 令 对 不 同 的 参数 类 型 将 有 不 同 的 输出 方式 ， 比 如 : 


口 对 于 C 风 格 的 字符 串 ，strace 将 输出 字符 串 的 内 容 。 默 认 的 最 大 
输出 长 度 是 32 字 节 ， 过 长 的 部 分 strace 会 使 用 “.…” 省 略 。 比 如 ，ls-] 命 令 


$strace 1Ss-1 
read(4,"root:x:0:0:root:/root:/bin/bash\n"...,4096)=2342 


需要 注意 的 是 ， 文 件 名 并 不 被 strace 当 作 C 风 格 的 字符 串 ， 其 内 容 
总 是 被 完整 地 输出 。 


口 对 于 结构 体 ，strace 将 用 “{}” 输 出 该 结构 体 的 每 个 字段 ， 并 
用 “将 每 个 字段 隔 开 。 对 于 字段 较 多 的 结构 体 ，strace 将 用 “..…” 省 略 部 
$strace ls-l]/dev/null 


lstat64("/dev/null", 
{St_mode=S_IFCHR|0666, st_rdev=makedev(1,3),...})=0 


上 面 的 strace 输 出 显示 ，lstat64 系 统 调 用 的 第 1 个 参数 是 字符 串 输 入 
参数 “/devmull”; 第 二 个 参数 则 是 stat 结 构 体 类 型 的 输出 参数 ( 指 
针 ) ，strace 仅 显示 了 该 结构 体 参数 的 两 个 字段 : sLmode 和 st_rdev 。 
需要 注意 的 是 ， 当 系统 调用 失败 时 ， 输 出 参数 将 显示 为 传 入 前 的 值 。 


口 对 于 位 集合 参数 (比如 信号 集 类 型 sigset_t) ，strace 将 用 “[]”* 输 
出 该 集合 中 所 有 被 置 1 的 位 ， 并 用 空格 将 每 一 项 隔 开 。 假 设 某 个 程序 中 
有 如 下 代码 : 


sigset_t set,; 
sigemptyset(&set); 
sigaddset(&set,SIGQUIT); 


sigaddset(&set,SIGUSR1); 
sigprocmask(SIG BLOCK, &set, NULL); 


则 针对 该 程序 的 strace 命 令 将 输出 如 下 内 容 : 


rt_sigprocmask(SIG BLOCK, [QUIT USR1],NULL, 8)=0 


针对 其 他 参数 类 型 的 输出 方式 ， 请 读者 参考 strace 的 man 手 册 ， 这 
里 不 再 袭 述 。 对 于 程序 接收 到 的 信号 ，strace 将 输出 该 信号 的 值 及 其 摘 
述 。 比 如 ， 我 们 在 一 个 终端 上 运行 “sleep 100” 命 令 ， 然 后 在 另 一 个 终 
端 上 使 用 strace 命 令 跟 踩 该 进程 ， 接 着 用 “Ctrl+C” 终 止 “sleep 100” 进 程 
以 观察 strace 的 输出 。 具 体操 作 如 下 : 


$sleep 100 

$ps-ef|grep Sleep 

shuang 29127 29064 0 03:45 pts/7 00:00:00 Sleep 100 

$strace-p 29127 

Process 29127 attached 

restart_syscall(<...resuming interrupted call...> )=? 
ERESTART _RESTARTBLOCK(Interrupted by signal) (此 时 用 “ctrli+C” 中 
断 “sleep 1007 进 程 ) 

---SIGINT{Si_signo=SIGINT, si_ code=SI_ KERNEL}--- 

+++killed by SIGINT+++ 


下 面 考虑 一 个 使 用 strace 命 令 的 完整 、 有 具体 的 例子 : 查看 websrv 服 
务 絮 在 处 理 客户 连接 和 数据 时 使 用 系统 调用 的 情况 。 具 体操 作 如 下 : 


$./websrv 127.0.0.1 13579 

$ps-ef|grep websrv 

shuang 30526 29064 0 05:19 pts/7 00:00:00./websrv 127.0.0.1 
13579 

$sudo strace-p 30526 

epoll wait(4, 


可 见 ， 服 务 絮 当前 正在 执行 epoll_wait 系 统 调用 以 等 待 客户 请 求 。 
值得 注意 的 是 ，epoll_wait 的 第 一 个 参数 (标识 epoll 内 核 事 件 表 的 文件 
描述 符 ) 的 值 是 4， 这 和 前 面 lsof 命 令 的 输出 一 致 。 接 下 来 使 用 17.3 节 


描述 的 方式 对 服务 吉 发 起 一 个 连接 并 发 送 HTTP 请 求 ， 此 时 strace 命 令 
的 输出 如 代码 清单 17-2 所 示 。 


代码 清单 17-2 ”strace 命 令 的 输出 


epoll wait(4,{{EPOLLIN, 

{U32=3, uU64=4818348437277769731}}}, 10000, -1)=1 
accept(3, 

{Sa_family=AF_INET,sin_port=htons(41408),sin addr=inet_addr("127.0. 

0.1")},[16])=5 
getsockopt(5,SOL SOCKET, SO_ERROR, [0], [4] )=0 
setsockopt(5,SOL_ SOCKET, SO_REUSEADDR, [1],4)=0 
epoll ct1(4,EPOLL CTL_ADD,5, 

{EPOLLIN|EPOLLRDHUP |EPOLLONESHOT |EPOLLET, 

{U32=5, U64=4818361493978349573}})=0 
fcnt164(5,F_GETFL)=0x2(flags O_RDWR) 
fcnt164(5,F_SETFL,O_RDWR|O_NONBLOCK )=0 
epoll wait(4,{{EPOLLIN, 

{U32=5, U64=4818361493978349573}}}, 10000, -1)=1 
recv(5,"GET http://localhost/a.html HTTP"...,2048,0)=38 
recv(5,0Oxa601739e, 2010,0)=-1 EAGAIN(Resource temporarily 

unavailable) 
futex(Ox8ace034, FUTEX_ WAKE_PRIVATE, 1)=1 
epoll wait(4,{{EPOLLIN, {u32=5, u64=8589934597}}}, 10000, -1)=1 
recv(5,"Host:1localhost\r\n",2010,0)=17 
recv(5,0Oxa60173af,1993,0)=-1 EAGAIN(Resource temporarily 

unavailable) 
futex(0x8ace034, FUTEX_ WAKE_PRIVATE, 1)=1 
epoll wait(4,{{EPOLLIN, {u32=5,u64=8589934597}}}, 10000, -1)=1 
recv(5,"\r\n",1993,0)=2 
recv(5,0Oxa60173b1,1991,0)=-1 EAGAIN(Resource temporarily 
unavailable) 
futex(0x8ace034, FUTEX_ WAKE_PRIVATE, 1)=1 
epoll wait(4,{{EPOLLOUT, {u32=5,u64=5}}}, 10000, -1)=1 
writev(5,[{"HTTP/1.1 404 Not Found\r\nContent-"...,114}],1)=114 
epoll ct1(4,EPOLL CTL_MOD,5, 

{EPOLLIN|EPOLLRDHUP |EPOLLONESHOT |EPOLLET, 

{U32=5, U64=11961983681754562565}})=0 
epoll ct1(4,EPOLL CTL_DEL,S, NULL)=0 
close(5)=0 
epoll wait(4, 


上 面 的 输出 分 为 五 个 部 分 ， 我 们 用 空 行将 每 个 部 分 隔 开 。 


第 一 部 分 从 第 一 次 epoll_wait 系 统 调用 开始 。 此 次 epoll_wait 调 用 检 
测 到 了 文件 描述 符 3 上 的 EPOLLIN 事 件 。 从 代码 清单 17-1 中 1sof 的 输出 
来 看 ， 文 件 描述 符 3 正 是 服务 器 的 监听 socket。 因 此 ， 这 个 事件 表示 有 
狐 客户 连接 到 来 ， 于 是 websrv 服 务 右 对 监听 socket 执 行 了 accept 调 用 ， 
accept 返 回 一 个 新 的 连接 socket， 其 值 为 5。 接 着 ， 服 务 器 清除 这 个 新 
socket 上 的 错误 ， 设 置 其 SO_REUSEADDR 属 性 ， 然 后 往 spoll 内 核 事件 
表 中 注册 该 socket 上 的 EPOLLRDHUP 和 EPOLLONESHOT 两 个 事件 ， 
最 后 设置 新 socket 为 非 阻塞 的 。 


第 二 部 分 从 第 二 次 epoll_wait 系 统 调 用 开始 。 此 次 epoll_wait 调 用 检 

测 到 了 文件 描述 符 5 上 的 EPOLLIN 事 件 ， 这 表示 客户 端的 第 一 行 数据 

到 达 了 ， 于 是 服务 器 执行 了 两 次 recv 系 统 调用 来 接收 数据 。 第 一 次 recv 
调用 读 取 到 38 字 万 的 客户 数据 ， 即 “GET http: //ocalhost/a.html 
HTTP/1.1\n”。 第 二 次 recv 调 用 则 失败 了 ，errno 是 EAGAIN， 这 表示 日 
前 没有 更 多 的 客户 数据 可 读 。 此 后 ， 服 务 器 调用 了 futex 函 数 对 互 不 锁 
解锁 ， 以 唤醒 等 竺 互 斤 锁 的 线程 。 可 见 ，POSIX 线 程 库 中 的 
pthread_mnutex_unlock 函 数 在 内 部 调用 了 futex 函 数 。 


第 三 、 四 部 分 的 内 容 和 第 二 部 分 类 似 ， 我 们 不 再 费 述 。 


第 五 部 分 中 ，epoll_wait 调 用 检测 到 了 文件 描述 符 5 上 的 
EPOLLOUT 事 件 ， 这 表示 工作 线程 正确 地 处 理 了 客户 请 求 ， 并 准备 好 
了 待 发 送 的 数据 ， 因 此 主线 程 开 始 执行 writev 系 统 调用 往 客户 端 写 入 
HTTP 应 答 。 最 后 ， 服 务 器 从 epoll 内 核 事 件 表 中 移 除 文 件 描述 符 5 上 的 
所 有 注册 事件 ， 并 关闭 该 文件 描述 符 。 


由 此 可 见 ，strace 命 令 使 我 们 能 够 清楚 地 查看 每 次 系统 调用 发 生 的 
时 机 ， 以 及 相关 参数 的 值 ， 这 比 用 gdb 调 试 更 方便 。 


17.5 netstat 


netstat 是 一 个 功能 很 强大 的 网 络 信息 统计 工具 。 它 可 以 打印 本 地 
网 卡 接口 上 的 全 部 连接 、 路 由 表 信息 、 网 卡 接 口 信息 等 。 对 本 书 而 
， 我 们 主要 利用 的 是 上 述 功 能 中 的 第 一 个 ， 即 显示 TCP 连 接 及 其 状 
信息 。 毕 竞 ， 要 获得 路 由 表 信 息 和 网 卡 接口 信息 ， 我 们 可 以 使 用 输 
出 内 容 更 丰富 的 route 和 ifconfig 命 令 。 


5 沙 了 


CG 


netstat 命 令 和 常用 的 选项 包括 : 


口 -n， 使 用 了 地 址 表示 主机 ， 而 不 是 主机 名 ; 使 用 数字 表示 端口 
而 不 是 服务 名 称 。 


< 


口 -a， 显 示 结 果 中 也 包含 监听 socket 。 


口 -t， 仪 显示 TCP 连 接 。 


口 -i， 显 示 网 卡 接口 的 数据 流量 。 
口 -c， 每 隔 1 s 输 出 一 次 。 


口 -o， 显 示 socket 定 时 器 (比如 保 活 定时 器 ) 的 信息 。 


口 -p， 显 示 socket 所 属 的 进程 的 PITD 和 名字 。 


下 面 我 们 运行 websrv 服 务 器 ， 并 执行 telnet 命 令 对 它 发 起 一 个 连接 
请 求 : 


$./websrv 127.0.0.1 13579& 
$telnet 127.0.0.1 13579 


然后 执行 命令 netstat-natlgrep 127.0.0.1:13579 查 看 连接 状态 ， 结 
如 下 : 


Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 127.0.0.1:13579 0.0.0.0:*LISTEN 

tcp 0 0 127.0.0.1:13579 127.0.0.1:48220 ESTABLISHED 

tcp 0 0 127.0.0.1:48220 127.0.0.1:13579 ESTABLISHED 


由 以 上 结果 可 见 ，netstat 的 每 行 输出 都 包含 如 下 6 个 字段 (默认 情 
疯 ) : 


口 Proto， 协 议 名 。 


口 Recv-Q，socket 内 核 接 收 缓冲 区 中 尚未 被 应 用 程序 读 取 的 数据 


wl 


口 Send-Q， 示 被 对 方 确认 的 数据 量 。 


口 Local Address， 本 端的 IP 地 址 和 端口 号 。 


口 Foreign Address， 对 方 的 IP 地 址 和 端口 号 。 


口 State，socket 的 状态 。 对 于 无 状态 协议 ， 比 如 UDP 协 议 ， 这 一 字 
段 将 显示 为 裤 。 而 对 面 癌 连接 的 协议 而 言 ，netstat 文 持 的 State 包 括 
ESTABLISHED 、SYN_SENT、 SYN RCVD 、 FIN _ WAIT1、 


FIN WAIT2 ~、 TIME WAIT、 CLOSE 、 CLOSE WAIT ~、 LAST ACK、 
LISTEN、CLOSING、UNKNOWN 。 它 们 的 含义 和 图 3-8 中 的 同名 状态 
ll 


上 面 的 输出 中 ， 第 1 行 表示 本 地 socket 地 址 127.0.0.1:13579 处 于 
LISTEN 状 态 ， 并 等 待 任何 远 端 socket (用 0.0.0.0:* 表 示 ) 对 它 发 起 连 
接 。 第 2 行 表示 服务 器 和 远 端 地 址 127.0.0.1:48220 建 立 了 一 个 连接 。 第 3 
行 只 是 从 客户 端的 角度 重复 输出 第 2 行 信息 表示 的 这 个 连接 ， 因 为 我 们 
是 在 同一 台 机 器 上 运行 服务 器 程序 (websrv) 和 客户 端 程序 (telnet) 
的 。 


在 服务 右 程 序 开 发 过 程 中 ， 我 们 一 定 要 确保 每 个 连接 在 任 一 时 刻 
都 处 于 我 们 期 望 的 状态 。 因 此 我 们 应 该 习惯 于 使 用 netstat 命 令 。 


[1] SYN_RCVD 和 CLOSE 分 别 对 应 图 3-8 中 的 SYN_RECV 和 CLOSED， 


UNKNOWN 表 示 未 知 状态 。 


17.6 vmstat 


vmstat 是 Vvirtual memory statistics 的 缩写 ， 它 能 实时 输出 系统 的 各 
种 资源 的 使 用 情况 ， 比 如 进程 信息 、 内 存 使 用 、CPU 使 用 率 以 及 IO 使 
用 情况 。 


vmstat 命 令 第 用 的 选项 和 参数 包括 : 
口 -f， 显 示 系 统 目 局 动 以 来 执行 的 fork 次 数 。 


口 -s， 显 示 内 存 相 关 的 统计 信息 以 及 多 种 系统 活动 的 数量 (比如 
CPU 上 下 文 切换 次 数 ) 。 


口 -4， 显 示 磁 盘 相 关 的 统计 信息 。 


口 -p， 显 示 指 定 亿 c 副 分 区 的 统计 信息 。 


口 -S$， 使 用 指定 的 单位 来 显示 。 参 数 k、K、m、M 分 别 代表 


1000、1024、1 000 000 和 1 048 576 字 节 。 


口 delay， 采 样 间隔 (单位 是 s) ， 即 每 隔 delay 的 时 间 输 出 一 次 统 


计 信息 。 


口 count， 采 样 次 数 ， 即 共 输 出 count 次 统计 信息 。 


默认 情况 下 ，vmstat 输 出 的 内 容 相 当 丰 是。 请 看 下 面 的 示例 : 


$vmstat 5 3# 每 隔 5 秒 输出 一 次 结果 ， 共 输出 3 次 

procs----------- memory------------- Swap------- i0------ System---- 
==GhuU=-=== 

r b swpd free buff cache si so bi bo in cs US sy id wa 

0 0 0 74864 48088 1486188 0 0 12 3 149 280 0 1990 

10 0 66548 48088 1494640 0 © 0 0 454 619 0 ©0 99 0 

0 0 0 74608 48096 1486188 0 0 0 10 289 339 0 0 99 0 


注意 ， 第 1 行 输出 是 目 系 统 局 动 以 来 的 平均 结 有 末 ， 而 后 面 的 输出 则 
征 采样 间隔 内 的 平均 结 采 。vmstat 的 每 条 输出 都 包含 6 个 字段 ， 它 们 的 


含义 分 别 是 : 


Dprocs， 进 程 信息 。“" 表 示 等 待 运行 的 进程 数目 ; “b” 表 示 处 于 
不 可 中 断 睡 眠 状态 的 进程 数目 。 


口 nemory， 内 存 信息 ， 各 项 的 单位 都 是 千 字 节 
(KB) 。“swpd” 表 示 虚 拟 内 存 的 使 用 数量 。“free” 表 示 空 帮 内 存 的 数 
量 。“buff”* 表 示 作 为 “buffer cache” 的 内 存 数量 。 从 磁盘 读 入 的 数据 可 能 
被 保持 在 “buffer cache” 中 ， 以 便 下 一 次 快速 访问 。“cache” 表 示 作 
为 “page cache” 的 内 存 数 量 。 待 写 入 磁盘 的 数据 将 首先 被 放 到 “page 
cache” 中 ， 然 后 由 磁 副 中 断 程 序 写 入 磁盘 。 


口 swap， 交 换 分 区 (虚拟 内 存 ) 的 使 用 信息 ， 各 项 的 单位 都 是 
KB/s。“si” 表 示 数 据 由 人 磁盘 交 换 至 内 存 的 速率 ;“so” 表 示 数 据 由 内 存 交 
换 至 磁盘 的 速率 。 如 果 这 两 个 值 经 常 发 生变 化 ， 则 说 明 内 存 不 足 。 


Dio， 块 设备 的 使 用 信息 ， 单 位 是 block/s。“bi” 表 示 从 块 设备 读 入 
块 的 速率 ;“bo” 表 示 向 块 设备 写 入 块 的 速率 。 


Dsystem， 系 统 信息 。“in” 表 示 每 秒 发 生 的 中 断 次 数 ;，“cs” 表 示 每 
秒 发 生 的 上 下 文 切换 (进程 切换 ) 次 数 。 


口 cpu，CPU 使 用 信息 。“us” 表 示 系 统 所 有 进程 运行 在 用 户 空间 的 
时 间 占 CPU 总 运行 时 间 的 比例 ; “sy” 表 示 系 统 所 有 进程 运行 在 内 核 衬 
间 的 时 间 占 CPU 总 运行 时 间 的 比例 ; “id" 表 示 CPU 处 于 空 采 状态 的 时 
间 占 CPU 总 运行 时 间 的 比例 ; “wa” 表 示 CPU 等 待 O 事 件 的 时 间 占 CPU 
总 运行 时 间 的 比例 。 


不 过 ， 我 们 可 以 使 用 iostat 命 令 获得 磁 副 使 用 情况 的 更 多 信息 ， 也 
a vmstat 命 令 主要 用 于 得 
看 系统 内 存 的 使 用 情况 。 


有 


ifstat 是 interface statistics 的 缩写 ， 它 是 一 个 简单 的 网 络 流 


具 。 其 第 用 的 选项 和 参数 包括 : 


Lj-a, 


-i， 指 定 要 监测 的 网 卡 接口 。 


口 -b， 以 Kbit/s 为 单位 显示 数据 ， 而 不 是 默认 的 KB/s 。 


ifstat 


监测 系统 上 的 所 有 网 卡 接口 。 


， 在 每 行 输出 信息 前 加 上 时 间 礁 。 


是 . [| 大 


L 里 品 


测 工 


口 delay， 采 样 间 隔 〈 单 位 是 sj) ， 即 每 隔 delay 的 时 间 输 出 一 次 统 


计 信息 。 


Dcount, 


举例 来 说 ， 我 们 在 测试 机 器 ernest-laptop 上 执行 如 下 命令 


$ifstat-a 2 5# 每 隔 2 秒 输出 一 次 结 


1o etho 
In KB/s out 


KB/Ss 
8.62 
7.46 
1.79 
8.10 
9.53 


8.62 
7.46 
1.79 
8.10 
9.53 


采样 次 数 ， 即 共 输 出 count 次 统计 信息 


124. 
125. 
126. 
127. 
130. 


KB/s In KB/sS out 
515. 
510. 
497. 
526. 
516. 


四 
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玉 ， 


共 输 出 5 次 


从 输出 来 看 ，ernest-laptop 拥 有 两 个 网 卡 接口 ， 虚拟 的 回路 接口 lo 
以 及 以 太 网 网 卡 接口 eth0。ifstat 的 每 条 输出 都 以 KB/s 为 单位 显示 各 网 
卡 接口 上 接收 和 发 送 数 据 的 速率 。 因 此 ， 使 用 ifstat 命 令 束 可 以 大 概 估 
计 各 个 时 段 服务 句 的 辟 输 入、 输出 流量 。 


17.8 mpstat 


mpstat 是 multi-processor statistics 的 缩写 ， 它 能 实时 监测 多 处 理 唤 
系统 上 每 个 CPU 的 使 用 情况 。mpstat 命 令 和 iostat 命 令 通常 都 集成 在 包 
sysstat 中 ， 安 装 sysstat 即 可 获得 这 两 个 命令 。mpstat 命 令 的 典型 用 法 是 


(mpstat 命 令 的 选项 不 多 ， 这 里 不 再 专门 介绍 ) 


mpstat[-P{|ALL}][interval[count]] 


选项 P 指 定 要 监控 的 CPU 号 〈0~CPU 个 数 -1) ， 其 值 “ALL” 表 示 
监听 所 有 的 CPU“。interval 参 数 是 采样 间隔 (单位 是 s) ， 即 每 隔 interval 
的 时 间 输 出 一 次 统计 信息 。count 参 数 是 采样 次 数 ， 即 共 输 出 count 次 统 
计 信 息 ， 但 mpstat 最 后 还 会 输出 这 count 次 采样 结果 的 平均 值 。 与 
vmstat 命 令 一 样 ，mpstat 命 令 输 出 的 第 一 次 结果 是 自 系统 启动 以 来 的 平 
均 结 果 ， 而 后 面 (count-1) 次 输出 结果 则 是 采样 间隔 内 的 平均 结果 。 


举例 来 说 ， 我 们 在 测试 机 硕 Kongming20 上 执行 如 下 命令 : 


$mpstat-P ALL 5 2# 每 隔 5 秒 输出 一 次 结果 ， 共 输出 2 次 

Linux 3.3.0-4.fc16.i686(Kongming20)06/25/2012_i686_(2 CPU) 
CPU%Usr%nice%sys%iowait%irq%soft%steal%guest%idle 

all 6.60 0.00 16.16 0.00 0.00 7.65 0.00 0.00 69.60 

0 5.00 0.00 13.20 0.00 0.00 7.20 0.00 0.00 74.60 

1 8.09 0.00 18.75 0.00 0.00 8.09 0.00 0.00 65.07 
CPU%Usr%nice%sys%iowait%irq%soft%steal%guest%idle 

all 8.05 0.00 19.08 0.00 0.00 8.05 0.00 0.00 64.81 

0 5.81 0.00 16.83 0.00 0.00 8.42 0.00 0.00 68.94 


1 10.24 0.00 17.02 0.00 0.00 7.86 0.00 0.00 60.88 
Average: 
CPU%Usr%nice%sys%iowait%irq%soft%steal%guest%idle 
all 7.32 0.00 17.62 0.00 0.00 7.85 0.00 0.00 67.17 
0 5.41 0.00 15.02 0.00 0.00 7.81 0.00 0.00 71.77 
19.17 0.00 19.89 0.00 0.00 7.97 0.00 0.00 62.97 


为 了 显示 的 方便 ， 我 们 省 略 了 每 行 输出 前 导 的 时 间 蕉 。 每 次 采样 
的 输出 都 包含 3 条 信息 ， 每 条 信息 都 包含 如 下 几 个 字段 : 


口 CPU， 指 示 该 条 信息 是 哪个 CPU 的 数据 。“0” 表 示 是 第 1 个 CPU 
的 数据 , “1 表示 是 第 2 个 CPU 的 数据 ,“al" 则 表示 是 这 两 个 CPU 数据 
的 平均 值 。 


口 %usr， 除 了 nice 值 为 负 的 进程 ， 系 统 上 其 他 进程 运行 在 用 户 空 
间 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


口 %nice，nice 值 为 负 的 进程 运行 在 用 户 空 间 的 时 间 占 CPU 总 运行 
时 间 的 比例 。 


口 %sys， 系 统 上 所 有 进程 运行 在 内 核 空间 的 时 间 占 CPU 总 运行 时 
间 的 比例 ， 但 不 包括 硬件 和 软件 中 断 消耗 的 CPU 时 间 。 


口 %iowait，CPU 等 行 磁 强 操作 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


口 %irq，CPU 用 于 处 理 硬 件 中 断 的 时 间 占 CPU 总 运行 时 间 的 比 
例 。 


口 %6soft，CPU 用 于 处 理 软件 中 断 的 时 间 占 CPU 总 运行 时 间 的 比 
例 。 


口 %steal， 一 个 物理 CPU 可 以 包含 一 对 虚拟 CPU， 这 一 对 虚拟 CPU 
由 超级 管理 程序 管理 。 当 超级 管理 程序 在 处 理 某 个 虚拟 CPU 时 ， 另 外 
一 个 虚拟 CPU 则 必须 等 待 它 处 理 完成 才能 运行 。 这 部 分 等 待 时 间 就 是 


所 谓 的 steal 时 间 。 该 字段 表示 steal 时 间 占 CPU 总 运行 时 间 的 比例 。 


口 %guest， 运 行 虚 拟 CPU 的 时 间 占 CPU 总 运行 时 间 的 比例 。 
口 %idle， 系 统 空 症 的 时 间 占 CPU 总 运行 时 间 的 比例 。 


在 所 有 这 些 输出 字段 中 ， 我 们 最 关心 的 是 %user、9%sys 和 9%idle。 
它们 基本 上 反映 了 我 们 的 代码 中 业务 逻辑 代码 和 系统 调用 所 占 的 比 
例 ， 以 及 系统 还 能 承受 多 大 的 负载 。 很 显然 ， 在 上 面 的 输出 中 ， 执 行 
系统 调用 占用 的 CPU 时 间 比 执行 用 户 业 务 逻 辑 占 用 的 CPU 时 间 要 多 。 
这 是 因为 我 们 在 该 机 器 上 运行 了 16.4 节 介绍 的 压力 测试 工具 ， 它 在 不 
停 地 执行 recv/send 系 统 调用 来 收发 数据 。 
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